从0-1搭建用户画像系统的设计思路(二)


04 数据建模

对人、货、场进行分析,对用户个体的性质和特征做出概括,形成相应的用户属性标签、用户行为标签后。才可以开始建

模。

建模需要分别从定性、定量,两个方面入手:

• 定性:在从已有数据中心,选择特征;假设这些特征与你要预测的值有一个关系,这个关系就是一个原始的模型

• 定量:确定模型中涉及到的所有未知系数

模型计算完成后,需要计算模型的置信度;此时根据测试数据(可以是团队内部测试、灰度测试等方式),来判断模型计算

的结果,与预期是否相符。

如果相符,就可以用这个模型来预测用户喜欢什么;如果与预期不相符,那么久需要重复上述过程。

比如商城系统中,有以下数据项:

用户忠诚度指标(L),与用户活跃度、购物车商品数、收藏数、下单数、在线时长的用户行为指标有一定的关系;将这5项

数据指标的熵权值,定义为用户忠诚度指标,可以用以下公式表示:

其中a表示上表中A2-A6的归一化值,归一化计算公式如下:

w表示权重。权重系数计算公式如下:

其中,e为行为数据信息熵,计算公式如下:

最终计算所有的用户的指标L后,例如可以取前25%为高忠诚用户,25-50%为普通忠诚用户,剩余为低忠诚用户,取值范

围可以根据业务实际情况调整。

另外,由于权重系数,有可能随时间的增加而衰减;所以如果需要,还需要定义衰减因子r;加入衰减因子后,标签权重=衰

减因子*行为权重。

 

05 梳理用户画像维度

设计用户画像维度时,建议使用MECE(Mutually Exclusive Collectively Exhaustive)准则;也就是对于一个重大的议

题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并成为有效解决问题的方法。

比如初步搭建用户画像维度,可以参考下图:

上图为商城系统,初步的用户画像维度。图中的数据,按照获取的方式,可以分为:统计类标签、规则类标签、挖掘类标

签。

统计类标签:这类标签是最为基础也最为常见的标签类型,例如对于某个用户来说,他的性别、年龄、城市、星座、近7日活

跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费类数据中统计得出;该类标签构成了

用户画像的基础。

规则类标签:该类标签基于用户行为及确定的规则产生;例如对平台上“消费活跃”用户这一口径的定义为近30天交易次数

>=2,在实际开发画像的过程中,由于运营人员对业务更为熟悉、而数据人员对数据的结构、分布、特征更为熟悉;因此规

则类标签的规则确定由运营人员和数据人员共同协商确定。

挖掘类标签:该类标签通过数据挖掘产生,应用在对用户的某些属性或某些行为进行预测判断;例如根据一个用户的行为习

惯判断该用户是男性还是女性,根据一个用户的消费习惯判断其对某商品的偏好程度;该类标签需要通过算法挖掘产生。

>