实践总结:【用户画像运营分析系统】的工程实践

时间:2023-02-12 18:06:00

一、背景

【用户画像运营分析系统】是利用用户的“一切”线上行为可追溯、可分析的特点,完成对用户多维度数据的完备收集和挖掘研究,让用户的特点和行为在企业面前都做到“可视化”,形成“用户画像”。从而达成以下商业目标:

  • 为企业的经营分析服务;
  • 针对用户进行精细化运营服务;
  • 针对用户进行个性化推荐、精准营销、个性化客服等多样化服务,深入挖掘潜在的商业价值;

一些应用场景

实践总结:【用户画像运营分析系统】的工程实践

二、工程框架

实践总结:【用户画像运营分析系统】的工程实践

(一)理解用户画像

1、用户画像简介

用户画像是根据用户特征、业务场景和用户行为等信息,构建一个标签化的用户模型,简单来说就是用户信息的标签化。

例如:通过收集用户的人口属性、行为属性、消费习惯、偏好特征等多个维度的数据,进而对用户或者产品特征属性进行刻画,并对特征进行分析、统计,挖掘潜在价值信息,抽象出用户的信息全貌。

2、用户画像建模:标签类型

用户画像建模其实就是对用户“打标签”,从对用户打标签的方式来看,一般分为3种类型:①统计类标签;②规则类标签;③机器学习挖掘类标签。 (1)统计类标签 该类标签是用户画像的基础。

例如,对于某个用户来说,其性别、城市、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、访问数据中统计得出。

(2)规则类标签 该类标签基于用户行为及确定的规则产生。

例如,对平台上“消费活跃”用户这一标准的定义为“近30天交易次数≥2”。

(3)机器学习挖掘类标签 该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。

例如根据一个用户的消费习惯判断其对某商品的偏好程度。

3、数据开发流程

实践总结:【用户画像运营分析系统】的工程实践

4、数据架构

(1)采集数据类型 对于我们的产品,目前可获取的数据类型包括业务类数据及用户行为数据。

  • 业务类数据:指用户使用平台上的各种功能和服务需要采集的业务数据,如家长的基本信息、孩子信息等……,这些数据目前均在我们的业务数据库中存储。
  • 用户行为数据:指用户使用平台过程中从用户行为中采集到的动态数据,如用户什么时间登陆了平台、使用了平台的哪些功能、使用了多久、浏览了哪一篇文章……,这些数据通过埋点和记录日志方式获取。

(二)数据指标体系

1、用户属性维度

实践总结:【用户画像运营分析系统】的工程实践

2、用户行为维度

实践总结:【用户画像运营分析系统】的工程实践

3、用户消费维度

实践总结:【用户画像运营分析系统】的工程实践

三、技术方案

(一)总体架构

1、业务架构

实践总结:【用户画像运营分析系统】的工程实践

2、数据架构

实践总结:【用户画像运营分析系统】的工程实践

简要说明 【用户画像运营分析系统】在业务层面使画像标签能够在应用在多种运营行为与分析行为,比如保证数据运营及营销推荐数据实时更新,画像标签每日更新,避免数据不准确。在技术层面比如采用Hive数据仓库封装用户画像模型宽表,每日同步至MySQL数据库,各业务及运营可通过直接访问MySQL数据库,访问画像模型数据宽表;通过在线接口以RESTful API的方式实时调用HBase、Elasticsearch中的用户标签、用户人群标签数据,实时反馈运营及营销数据,整合画像模型并更新。

(二)数仓模型

1、离线数仓

实践总结:【用户画像运营分析系统】的工程实践

  • 临时数据层TMP:从外部数据源采集的数据首先放置在临时数据层,其意义和源数据层类似。主要是工程方面的考虑,如:导入数据过程中的失败处理;进入源数据层时进行相应数仓格式的转换。
  • 原始数据层(ODS,Operational Data Store,又称操作数据层),将原始数据几乎无处理地存放在数据仓库系统中,结构上与外部数据源系统基本保持一致,这里是从TMP层中进行存储格式的转换后引入(文本格式转换为Parquet或ORC)。
  • 明细数据层(DWD,Data Warehouse Detail),对数据进行规范化(编码转换、清洗、统一格式、脱敏等),并基于维度建模理论进行构建,存放维度模型中的事实表,保存各业务过程最小粒度的操作记录。
  • 汇总数据层(DWS,Data Warehouse Summary),基于上层的指标需求,以分析的主题对象作为建模驱动,构建公共统计粒度的汇总表。
  • 公共维度层(DIM, Dimension),基于维度建模理论进行构建,存放维度模型中的维度表,保存一致性维度信息。
  • 数据应用层(ADS,Application Data Service),面向业务需求进行定制开发,存放各种统计指标结果。

2、实时数仓

实践总结:【用户画像运营分析系统】的工程实践 实时数仓主要是用来对基于用户画像的各种运营行为进行实时的分析,分层思路同上述离线数仓

四、数据开发管理

实践总结:【用户画像运营分析系统】的工程实践

五、小结

以上便是我们进行【用户画像运营分析系统】的整个工程框架。我们在画像系统的开发设计及应用过程中大量参考了书籍《用户画像:方法论与工程化解决方案》,非常感谢作者编著了这么一本实践性很强的好书,也希望有需要的大家进行参考。

另附

希望大家关注我的 GitHub 项目

 https://github.com/yaocoder/Architect-CTO-growth

包括技术实践及手册撰写:涵盖DevOps,云原生技术,大数据,人工智能,高并发&高性能&高可用服务等,后续会逐渐细化一些知识点。一起学习成长!如果对你有用,也请星标一下O(∩_∩)O