接地气的用户画像概述

时间:2024-05-20 19:50:00

既是概述,也是笔记,持续更新 ~

参考文章:
1、用户画像的技术和方法论
2、用户画像是怎么生成出来的?
3、用户画像:User persona 和 User profile
4、 终于有人把用户画像(客户画像和市场细分)的流程、方法讲明白了
5、用户行为分析与用户画像(下)
6、户画像体系介绍汇总
7、比你更了解你,浅谈用户画像

一、用户画像的诞生背景

1.1 行业背景?

在互联网逐渐步入大数据时代后,用户的所有行为在企业面前几乎都是可视的。深入挖掘用户数据的潜在商业价值,利用大数据为企业进行人、货、场的精准布局,用户画像的概念也就应运而生。

1.2 互联网公司的核心?

围绕购物旅程后的用户体验(购物旅程:商品、供应链、物流、营销活动等)。

1.3 如何在现有体系下最大化满意度?

以增量用户拉取,存量用户数量和价值的保有为目标,利用大数据技术精准用户画像,并结合商品画像,解构用户及商品,精细化耕作,最终在重点目标客户群体上形成突破。
接地气的用户画像概述

二、What ?什么是用户画像?

2.1 用户画像的概念

  • 用户信息标签化(与用户相关联的数据的可视化展现)。
  • 通俗理解:从用户的海量数据里,根据用户属性、目标、偏好、行为等,将他们分为不同的类型,然后从每种类型中抽取出典型特征,赋予高度精炼的特征标识,也就是用户信息标签化。

2.2 用户画像的分类(user profile 和 user persona)

User Profile

  • User Profile:数据偏理性,一般基于用户在系统里产生的真实数据、行为特征和用户主动填写的行为资料,更偏数据统计、计算过程形成的标签系统。
  • 应用:① 为优化产品用户体验提供方向;② 挖掘用户数据进行个性化推送;③ 衡量用户价值 ARUP

User Persona

  • User Persona:一般来自于用户访谈、用户研究,是一个比较抽象的,比较感性的画像。
  • 应用:① 产品定义阶段(需求分析:用户-场景-问题-解决方案);② 产品设计阶段(从典型用户画像出发,进行流程和用户体验设计)

User Profile 对比 User Persona

  • 简言之,用户画像(user profile)是基于大量用户积累下的数据,结合相应的需求和场景沉淀出的一系列标签,这些标签共同为提供更好的产品迭代提供数据支持。用户画像(user persona)是产品设计人员在产品规划阶段,基于对用户的真实需求虚拟出的典型人物角色。

三、Why?为什么使用用户画像?

3.1 为什么?

  • 数据驱动决策,做到利益最大化。
  • 通俗理解:找到并更好地服务于为产品买单的那一群人。

3.2 用户画像的作用?

从人、货、场的角度解读:

  • 人:用户通过内容形成粉丝,精准引导及匹配消费
  • 货:商品走向柔性供应链,数据驱动产销配一体化
  • 场:渠道匹配品牌和运营能力的节奏布局(含场景)

从用户画像的应用角度解读:

  • 精准营销:根据历史用户特征,分析产品的潜在用户和用户的潜在需求,针对特定群体,利用短信、邮件等方式进行营销。
  • 用户统计:根据用户的属性、行为特征对用户进行分类后,统计不同特征下的用户数量、分布;分析不同用户画像群体的分布特征。
  • 数据应用:以用户画像为基础构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。
  • 服务产品:对产品进行用户画像,对产品进行受众分析,更透彻地理解用户使用产品的心理动机和行为习惯,完善产品运营,提升服务质量。
  • 行业报告 & 用户研究:通过用户画像分析可以了解行业动态,比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析

四、How?如何构建用户画像?

用户画像的构建流程基本可概述为:数据采集(收集+分层)→ 数据建模 → 构建画像(闭环)

4.1 数据采集:维度、粒度、静/动态、分层

数据维度:

  • 人口属性 —— 用户的基本特征(性别、年龄、地理位置等)
  • 社会属性 —— 用户职业相关特征(所属行业、岗位层级、工作年限等)
  • 消费需求 —— 消费习惯和消费偏好(生活习惯、便利性、价格和品质敏感度、风险偏好等)
  • 购买能力 —— 收入及购买力、购买频次和渠道(月收入、财务状况、消费能力等)
  • 兴趣爱好 —— 品牌偏好、个人兴趣(游戏、吃货、圈子、粉丝等)
  • 社交属性 —— 用户活跃场景(社交关系、上网时间、活跃度、社交媒体等)

数据粒度:

  • 过细的粒度会导致标签没有泛化能力和使用价值,过粗的粒度会导致没有区分度。
  • 因此,在模型构建中一般采用层次化的标签体系,同时用几个粒度的标签去匹配,既保证了标签的准确性,又保证了标签的泛化性。

静态/动态:

  • 静态数据:用户相对稳定的信息,实时性弱,覆盖广,粒度粗(例如:性别、年龄、收入、地域等)
  • 动态数据:用户不断变化的行为信息,时效性敏感(例如:访问设备,活跃度,消费偏好等)
  • 统计/预测类数据:维度子特征占比(例如:消费类型占比等)

数据分层:

  • 浅层用户数据:根据用户基本属性和行为,对数据进行浅层次的收集和汇总分析
  • 深层用户数据:结合业务知识,对数据进行归纳和拆分,便于后续构建标签体系
  • 参考文章:用户画像的技术和方法论,原文是为用户画像构建的分层,即“浅层用户画像”与“深层用户画像”,其中心思想是,越深层的用户画像越贴近业务。但缺乏各层次构建的依据和框架,因此在本文,为了使标签体系的构建更有条理性,仅保留“深层-业务”的中心思想,对原始数据进行分层和理解,而后标签的分层在后续将按照“原始数据-事实标签-模型标签-高级标签”,来递进分层)。

接地气的用户画像概述

4.3 数据建模

4.3.1 数据挖掘

1、SDK 埋点:

  • 预先设定需获取的“事件”,将“事件”嵌入相应页面形成触点,让用户在点击时直接产生网络行为数据和服务内行为数据,用于追踪和记录用户行为,并将实时数据传送至后台数据库或客户端。
    △ 事件:指用户作用于产品、网站页面的一系列行为,并用程序语言进行描述。
    △ 网络行为数据:登陆次数、访问时长、**率、外部触点、社交数据等。
    △ 服务内行为数据:浏览路径、页面停留时间、访问深度、唯一页面浏览次数等。
  • 数据反馈到服务器,被存放于后台或者客户端,就是我们所要获取到的用户基础数据。

2、A/B test:

  • 为同一个目标制定两个方案,让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录用户的使用情况,获取进一步的信息数据。
  • A/B test 流程概述:确定目标 → 创建变体 → 生成假设 → 收集数据 → 运行试验 → 分析结果

3、问卷调查、访谈、观察

  • 问卷调查:可以用在产品生命周期的各个阶段,它的优点是多快好省。
  • 访谈:访谈针对的对象,主要是那些愿意说,说得清楚的用户。通过访谈了解用户内心的真实想法。
  • 观察:主要分为旁站式观察和沉浸式观察。旁站式观即站在旁边观察用户的使用行为情况,并且记录下来。沉浸式观察即和用户一起操作一遍,以便了解用户的真实内心想法。
4.3.2 研究方法:定性/定量相结合

1、定性的方法:

  • 确定事物的性质,是描述性的。
  • 表现为对产品、行为、用户个体的性质和特征作出概括,形成对应的产品标签、行为标签、用户标签。

2、定量的方法:

  • 确定对象数量特征、数量关系和数量变化,是可量化的。
  • 定量的方法是在定性的基础上,给每一个标签打上特定的权重,最后通过数学公式计算得出总的标签权重,从而形成完整的用户模型。
4.3.3 标签权重
  • 标签 = 用户标识 (who) + 时间 (when) + 接触点 (where) + 商品/内容 (what) + 行为 (which)
  • 根据标签权重,为用户打上标签,而后基于标签聚类进行用户分类
  • 标签权重 = 时间衰减因子 x 行为权重 x 网址权重
    (考虑用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子 r,行为类型与网址决定了权重,内容决定了标签)
4.3.4 标签体系 & 常用算法

1、原始数据:

  • 客户基本信息、历史交易、渠道使用、收入支出等原始数据信息。
  • 对原始数据,主要使用文本挖掘的算法进行分析,例如 TF-IDF、LDA,对原始数据预处理和清洗,对用户数据的匹配和标识。

2、事实标签:

  • 基于原始数据,从数据库直接获取(如注册信息),或通过简单统计得到的标签。这类标签构建难度低、实际含义明确,且部分标签可用作后续标签挖掘的基础特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。
  • 对原始数据,通过文本挖掘,提取更多事实数据信息(如人口属性、行为与消费信息),主要使用分类与聚类算法,对信息不全的用户,进行预测分类。同时分析挖掘出具有相同特征的群体信息,进行受众细分,市场细分。对文本特征数据,使用相似度计算,最终得到事实标签层。

3、模型标签:

  • 利用模型(业务规则、算法模型),根据业务需求构造出的标签。
  • 对原始数据与事实标签层数据,使用回归、决策树等机器学习模型,进一步挖掘用户群体特征和个性权重特征,从而完善用户的价值衡量、偏好衡量、满意度衡量等。

4、预测标签:

  • 基于事实标签和模型标签,结合业务指标,进行统计建模后预测分析得出。
  • 利用预测算法,对用户的流失、忠实度、需求等预测,从而实现精准营销,个性化和定制化营销。

接地气的用户画像概述

五、构建画像(闭环)

5.1 构建画像

根据具体业务规则,与标签体系,构建最终的用户画像。
常见的维度:基本特征、购买能力、行为特征、兴趣爱好、心理特征、社交网络等。
接地气的用户画像概述

5.2 画像验证与效果评估

5.2.1 事中验证:

1、模型验证指标

① 准确性验证指标:Confusion Matrix、ROC、AUC、KS

  • 准确率:是预测正确的结果占总样本的百分比
    Accurary = (TP + TN) / (TP + TN + FP + FN)
  • 召回率 / 查全率 / 真正率:在实际为正的样本中,被预测为正样本的概率
    Recall = TPR = TP / (TP + FN)
  • 假正率:在实际为负的样本中,被预测为正样本的概率
    FPR = FP / (FP + TN)
  • 精确率 / 查准率:在被预测为正的样本中,实际为正的样本的概率
    Precision = TP / (TP + FP)
  • F1 分数:同时考虑查准率与查全率,让二者同时达到最高,取平衡点
    F1 = 2 * Precision * Recall / (Precision + Recall)
  • ROC 曲线:横坐标为假正率(FPR),纵坐标为真正率(TPR),可以无视样本不平衡
  • AUC:ROC 曲线下的面积,积分或投点法求解。AUC 可以解读为模型将某个随机正类别样本,排列在某个随机负类别样本之上的概率。TPR越高,FPR越低,也就是 ROC 曲线越陡,模型的性能就越好。
    接地气的用户画像概述

② 模型覆盖率:被打上标签的用户占全量用户的比例

  • 但覆盖率和准确率是一对矛盾的指标,需要对二者进行权衡,一般的做法是在准确率符合一定标准的情况下,尽可能的提升覆盖率。
  • 因此标签整体覆盖率一般拆解为 2 个指标:标签覆盖的用户比例、覆盖用户的人均标签数

③ 时效性:对于不同的标签,需要建立合理的更新机制,以保证标签时间上的有效性(例如:强时效性的兴趣标签、轨迹标签等;弱时效性的性别标签、年龄标签等)。

④ 其他指标:标签还需要有一定的可解释性,便于理解。同时需要便于维护且有一定的可扩展性,方便后续标签的添加。这些指标难以给出量化的标准,但在构架用户画像时也需要注意。

2、抽样验证:采取分层抽样验证、或随机抽样验证,对画像准确性进行验证。

3、交叉验证:画像指标间的交叉验证、外部数据的补充交叉验证。

5.2.2 事后验证:

1、真实数据验证:基于随业务发展增加的数据源(真实数据),对用户画像进行验证与更新。
2、A/B test:对比实验组与对照组的结果,验证用户画像的准确率与有效性。
3、业务反馈数据验证:看业务反馈排序与画像模型排序模型是否呈现单调性。

5.2.3 构建闭环

结合业务,构建闭环,用数据来提升业务理解,通过业务理解来快速构建与更新画像数据体系。