文件名称:电视用户数据分析.docx
文件大小:190KB
文件格式:DOCX
更新时间:2022-12-24 00:10:55
文档资料
电视用户数据分析全文共12页,当前为第1页。电视用户数据分析全文共12页,当前为第1页。 电视用户数据分析全文共12页,当前为第1页。 电视用户数据分析全文共12页,当前为第1页。 电视用户数据分析 电视用户数据分析全文共12页,当前为第2页。电视用户数据分析全文共12页,当前为第2页。文档修改记录 电视用户数据分析全文共12页,当前为第2页。 电视用户数据分析全文共12页,当前为第2页。 修改日期 修改人 修改说明 版本号 修改页 电视用户数据分析全文共12页,当前为第3页。电视用户数据分析全文共12页,当前为第3页。目 录 电视用户数据分析全文共12页,当前为第3页。 电视用户数据分析全文共12页,当前为第3页。 1 总体描述 4 1.1 建设目标 4 1.2 整体架构 4 2 功能实现 6 2.1 数据采集模块 6 2.1.1 数据收集 6 2.1.2 数据处理 6 2.2 数据分析 7 2.3 数据可视化 8 2.4 系统管理 9 3 初步方案 10 3.1 C平台接口日志分析 10 3.2 流水文件分析 11 4 技术实现 11 电视用户数据分析全文共12页,当前为第4页。电视用户数据分析全文共12页,当前为第4页。总体描述 电视用户数据分析全文共12页,当前为第4页。 电视用户数据分析全文共12页,当前为第4页。 建设目标 互联网电视是建立在通信网络上的互动性视频服务,可以非常灵活地实现电子菜单、节目预约、实时快进、快退等操作。通过对OTT用户的实时数据收集,统计分析,建设实时数据分析系统,对OTT的EPG界面设计、内容运营有着重要意义。 系统在通过对OTT业务运营平台数据收集的基础上,实时(定期)获取用户行为数据,结合业务运营平台数据日志、用户端APK上报日志等数据,通过大数据处理平台(如Hadoop),对OTT的各纬度指标进行统计分析,并提供用户自定义分析功能,进行数据展示,为EPG的界面设计和运营建设提供决策依据。 整体架构 电视用户数据分析全文共12页,当前为第5页。电视用户数据分析全文共12页,当前为第5页。数据抓取 电视用户数据分析全文共12页,当前为第5页。 电视用户数据分析全文共12页,当前为第5页。 负责整个互联网电视运营中心平台或者分平台系统的原始基础数据的获取,包括2部分内容:(1)平台日志:结合运营平台的日志管理模块,实现获取并接收用户的行为数据;(2)APK日志上报。提供数据接口,且支持FTP等传输导入。 数据抓取用于接入存储数据,目前分为三部分: (1)C平台各业务系统通过AOP方式将各接口调用情况输出标准日志,由FLUME进行抓取;再通过KAFKA将数据输送到STORM 中;STORM 将元数据直接存放到HDFS中。 (2)各业务系统的错误日志转换为json后直接存放到ES中,方便查找。 (3)将流水文件(需转换为csv格式)和流水日志(导出txt格式)通过文档上传系统上传到HDFS中,文件所在的文件夹以当天日期命名(减少需处理的文件数量,提高效率)。 数据分析 基于hadoop大数据处理技术,将数据收集获取到的基础数据,进行数据预处理、数据统计计算,包括数据排重、数据清洗、结果展示指标计算等,并将原始数据、结果表数据进行存储和备份。根据多维度的数据展示需求,设计结果表数据,并对其进行实时统计计算,并将结果数据,推送给前端展示平台。另外还提供用户自定分析功能,用于对原始数据和结果表数据的自定义查询和分析功能,便于非数据分析人员对系统进行二次分析。 数据分析用于对指定数据进行切割分解为各个维度,给展示系统提供数据支撑: (1)由STORM 对C平台接口日志进行处理,将处理后的数据存放到ELK中进行展示。 (2)由SPARK离线处理HDFS上的流水文件,将处理后的数据保存到mongodb中。(设定时任务每天零点自动开始SPARK任务,对以前一天日期命名的文件夹下的数据进行处理)。 可视化系统(BI) BI系统负责可视化数据分析模块建设,将数据分析的数据,在显示终端进行可视化图形展示。BI系统是对分析后结果进行展示,用于图形化展示最终的分析结果: 初期是使用ECharts 等图表插件绘制展示图形; 后期由项目根据传来的数据和模型自动绘制图形。 电视用户数据分析全文共12页,当前为第6页。电视用户数据分析全文共12页,当前为第6页。数据挖掘 电视用户数据分析全文共12页,当前为第6页。 电视用户数据分析全文共12页,当前为第6页。 数据挖掘对离线数据进行分析,形成相关模型,并用模型对数据进行计算分析:使用SPARK Mllib (机器学习)训练模型,来完成精准推荐和视频打分等功能。 元数据管理与数据质量管理系统 元数据管理对接入的数据进行管理,数据质量管理是对云平台上存储数据进行质量控制,保