文件名称:信息量分析和预测-c_#与.net程序员面试宝典
文件大小:2.01MB
文件格式:PDF
更新时间:2024-07-13 09:53:12
大数据
1.5 信息量分析和预测 1.5.1 存储量分析 本项目中存储的数据主要包括两大部分:系统网站群的在线行 为数据和国内外互联网重点渠道、信息源以及*网站群的在线内 容数据。在线用户行为数据以符合 W3C 格式标准的日志形式进行存 储。网站内容更新数据直接存到关系型数据库或其他非关系型数据 库中。 1、在线行为数据存储量 网站群的在线行为数据存储主要分为三部分: (1)接收数据,是系统储存的原始数据。 (2)结构化数据,将原始数据进行数据清洗和去重后进行结构 化后存储。 (3)分析数据库,将结构化的数据进行分析预计算后存储。 按照本项目需要涵盖**系统网站群的 500 个网站,每个网站的 日平均访问按照 10000 个 PV计算,预计每日需要处理的总的 PV 数 为 500 万。 接收数据的测算依据及结论 其中接收数据库的主要条目占用空间,如下表所示: 单个 PV所要储存的信息 空间大小(字节) 访问路径信息 1600