金投互联网产品列表,互联网产品

1.前言

RFM模型即"R"——Recency(最近一次消费时间)、"F"——Frequency(一段时间内消费频次)、"M"——(一段时间内消费总额)。这三个指标可以将我们的用户划分成不同的等级和层次，目的是为了衡量他们的用户价值，从而能够更准确地将成本和精力花在更精确的用户层次身上。一个典型的例子就是针对一个明显无意愿的流失用户，对其继续push自己的核心产品，费时费力也费钱。

2.如何用Python建立RFM模型

RFM模型，虽然字眼中带着“模型”二字，但实际它根本不需要任何的算法支撑，和数据建模中的逻辑回归，聚类分析等是完全不同的概念。因而实现RFM的工具和方法有很多：SQL, Excel, R等等都能够做到，当然Python也不例外，RFM模型的核心就是将三个指标进行标签化，然后根据实际场景业务需求进行分层即可。下面的文章我就通过一个简单的例子来通过代码实现RFM模型的建立。

2.1数据导入

链接：https://pan.baidu.com/s/1YbZrdsg2dOoe_5lylTwhQw

提取码：nf2f

数据是某电商的一款SKU于2018年的销售表单，字段本身只有4个，但是足够建立RFM模型了。

import os

import numpy as np

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

%matplotlib inline

plt.rcParams['font.serif'] = ['SimHei']

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.rcParams['axes.unicode_minus']=False

sns.set_style('ticks', {'font.sans-serif':['simhei','Droid Sans Fallback']})

2.2 数据清洗

df = pd.read_csv('sale.csv')

df.drop_duplicates(subset=['ORDERID'],keep='first',inplace=True)

df.dtypes

dtypes.png

可以看到我们各个字段的数据类型，注意到其中的ORDERDATE是字符串类型，而不是时间Datetime类型，这个需要在后面进行转换。其它字段都正常。

df[df.isna().values == True]

df = df.dropna(how='any', axis=0)

查看空值.png

可以看到上面有些数据出现了空值，由于空值无法计算出RFM，所以直接删除。

plt.figure(figsize=(10,5))

sns.distplot(df.AMOUNTINFO)

数据整体分布.png

通过直方图我们可以很清晰地看到数据的整体分布情况，呈现偏态分布，不过没有负值，因此不需要处理异常值，>0的值都是合理的。

df['ORDERDATE'] = pd.to_datetime(df['ORDERDATE'])

df['Datediff'] = (pd.to_datetime('today') - df['ORDERDATE']).dt.days

添加一列R.png

数据的最后处理，就是将ORDERDATE转换成Datetime时间类型，并添加一列时间差，作为"R"的计算指标。

2.3数据分析

R_Agg = df.groupby(by=['USERID'])['Datediff']

R_Agg = R_Agg.agg([('最近一次消费','min')])

F_Agg = df.groupby(by=['USERID'])['ORDERID']

F_Agg = F_Agg.agg([('2018年消费频次','count')])

M_Agg = df.groupby(by=['USERID'])['AMOUNTINFO']

M_Agg = M_Agg.agg([('2018年消费金额',sum)])

rfm = R_Agg.join(F_Agg).join(M_Agg)

rfm

上面的步骤是分别计算了RFM模型中的三个指标: R,F,M，将其合并成一wydxtg表，如下图：

RFM表1.png

然后就是最关键的一步了，通过pd.cut方法，将用户分层并打上标签，这里我用的分层方法是python中的quantile函数，因为我们之前的直方图看到是偏态分布，所以取均值来分层的误差会很大，这时候选择分位数来分层会更好。

def rfm_convert(x):

rfm_dict = {0:'R',

2:'M'}

try:

for i in range(0,3,2):

bins = x.iloc[:,i].quantile(q=np.linspace(0,1,num=6),interpolation='nearest')

if i == 0:

labels = np.arange(5,0,-1)

else:

labels = np.arange(1,6)

x[rfm_dict[i]] = pd.cut(x.iloc[:,i],bins=bins,labels=labels,include_lowest=True)

except Exception as e:

print(e)

rfm_convert(rfm)

上面这个函数的目的是将R和M按照1-5的等级打上标签，给用户分层，但由于F的数值大多集中在1，即消费频次只有1次，所以无法使用分位数方法来均分出5个等级，因此我下面额外再使用其它方式将其打上标签：

bins = [1,3,5,12]

labels = np.arange(1,4)

rfm['F'] = pd.cut(rfm['2018年消费频次'], bins=bins, labels=labels, include_lowest=True)

rfm.insert(4,'F',rfm.pop('F'))

rfm

F的分层是由我手动区分的，由于RFM模型本身就是根据不同场景和业务需求来建立的，因此这里的F我就根据数据的实际分布情况来手动分层了。

RFM表2.png

好，那么至此RFM模型已经有了个雏形，最后要做的，就是打上标签：

rfm_model = rfm.filter(items=['R','F','M'])

def rfm(x):

return x.iloc[0]*3+x.iloc[1]+x.iloc[2]*3

rfm_model['RFM'] = rfm_model.apply(rfm,axis=1)

bins = rfm_model.RFM.quantile(q=np.linspace(0,1,num=9),interpolation='nearest')

labels = ['流失客户','一般维持客户','新客户','潜力客户','重要挽留客户','重要深耕客户','重要唤回客户','重要价值客户']

rfm_model['Label of Customer'] = pd.cut(rfm_model.RFM, bins=bins, labels=labels, include_lowest=True)

rfm_model

RFM表3.png

这里的RFM分数根据具体场景和业务来分配权重，这里我给的权重比是3:1:3,，那么其实也可以不要这个加权分数，完全根据单独的R,F,M来标签，比如R>=4、F>1、M>=4的，算核心用户。

4.数据可视化

以上就是RFM模型了，那么有了模型之后，我们就能直观地看到各个层级下的用户分布以及用户价值了：

from pyecharts.charts import Grid, Pie, Bar

from pyecharts import options as opts

tmp = rfm_model.groupby('Label of Customer').size()

t = [list(z) for z in zip(tmp.index.values, tmp.values)]

# 绘制饼图

pie = (

Pie()

.add('',t,

radius=['30%','75%'],

rosetype='radius',

label_opts=opts.LabelOpts(is_show=True))

.set_global_opts(title_opts=opts.TitleOpts(title='消费者分层结构',pos_left='center'),

toolbox_opts=opts.ToolboxOpts(is_show=True),

legend_opts=opts.LegendOpts(orient='vertical',pos_right='2%',pos_top='30%'))

.set_series_opts(label_opts=opts.LabelOpts(formatter='{b}:{d}%')))

pie.render_notebook()

消费者分层结构.png

可以看到无价值的流失客户占据了很大一部分，但是同时我们也要关注到，新客户的占比量是相当大的，不过，单纯看占比是没有意义的，因为我们最终的目的是盈利，因此下面我们再结合消费金额分布情况，来看下我们实际应该针对哪些层级的用户进行精准投放：

consumer_r = df.groupby('USERID').AMOUNTINFO.agg([('消费总额',sum)])

new_rfm = rfm_model.join(consumer_r)

filter_list = ['流失客户','新客户','重要挽留客户','重要价值客户']

new_rfm = new_rfm[new_rfm['Label of Customer'].astype('

new_rfm['Label of Customer'] = new_rfm['Label of Customer'].astype('

tmp = new_rfm.groupby('Label of Customer').消费总额.sum()

tmp = tmp.sort_values()

from pyecharts.charts import Bar

yindex = []

for i in list(tmp.values):

yindex.append(int(i))

# 绘制柱状图

bar = (Bar(init_opts=opts.InitOpts(theme='white',bg_color='papayawhip'))

.add_xaxis(list(tmp.index.values))

.add_yaxis('消费者分层',yindex,color='lightcoral', category_gap='70%')

.set_global_opts(title_opts=opts.TitleOpts(title='不同分层消费者2018年消费总额',pos_left='center',title_textstyle_opts=opts.TextStyleOpts(color='lightcoral')),

legend_opts=opts.LegendOpts(pos_top='bottom'),

toolbox_opts=opts.ToolboxOpts(is_show=True),

yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(formatter='{value}')))

)

bar.render_notebook()

不同分层消费者2018年消费总额.png

结合上面的饼图，我们可以最终得出结论，虽然新客户的人群占比是最大的，但是他们实际贡献的金额并不高，所以我们没有必要在拉新这一块花费太多心思和精力，而应该着重将运营的重心放在“留存”和“变现”上，如何留住核心收入来源的“重要价值用户”以及通过用户触达的各种方法，召回“重要挽留客户”，是现阶段的任务。

5.总结

通过上面的RFM模型建立和可视化，我们其实能够发现，通过对用户的精准分层，我们能够对用户价值有个更直观的感受，从而对互联网产品的运营，起到点对点服务的作用。