文件名称:数据统计和分析论文的matlab源代码
文件大小:6KB
文件格式:ZIP
更新时间:2015-11-29 09:15:18
TransCAD 数据统计 matlab 源码
网站的运营过程中,需要及时了解自身运营状况,结合运营状况调整营销策略和战略方针。而认识网站当前状态的最有效途径,便是数据,网站访问次数、访问人数、访问IP数,逗留时长等等都是很好的指导性指标。视频网站的运营亦是如此,相对于其他类型网站而言,视频网站需要更多其他定制的指标来指导。当前网络环境下存在多家第三方统计机构或工具,如艾瑞、Comscore、GA等。这些第三方统计机构能提供最基本、较笼统的数据,但对于高层决策者来说,这些还远远不够,他们需要的是有自身特色的、最好是可定制的指标,这些第三方机构或工具提供的数据过于普遍化,过于通用化。 此外第三方统计数据存在较大的时延性(一般延迟1到2个月)问题。 本文介绍了一种由网站运营商自身进行数据统计和分析的解决方案。 由网站运营公司技术部门以网站运营日志为最初数据源,基于公司高层业务需求,将数据经过层层数据清洗、转换和抽取,建立数据仓库,基于数据仓库进行数据分析和挖掘工作。 该方案工作主线为基于分析主题,采用星型模型进行数据仓库多维建模。 数据仓库架构建立后,以数据仓库结构为目标对日志源进行ETL, ETL过程基于Hadoop分布式计算框架,摒弃日志文件中的多余信息,将需要的数据抽取、计算,并装载入Hive数据仓库。 随后基于Hive数据仓库及其提供的数据查询工具HQL,在Oozie,www.boLelib.com/post/9.html工作流控制工具的控制下 完成数据的分析和进一步抽取工作,分析结果存入OLTP数据库,并最终以报表、图形等方式对分析结果进行展示。 由于该系统由网站运营商自身开发,能较完善地解决上述问题。本文介绍的解决方案,已得到内部的广泛使用,成为公司高层了解公司运营状况的最直接、最及时工具。此外,基于我们构建的数据仓库开发的推荐系统、搜索系统、风云榜系统已为全站带来视频播放次数至少达5000万/天。
【文件预览】:
数据统计和分析
----CollectAnaly.m(2KB)
----DistgshAnalysis.m(1KB)
----MultiLineReg.m(639B)
----ZYFG.m(490B)
----ForwardReg.m(1KB)
----PolyReg.m(716B)
----MainAnalysis.m(778B)
----PeakReg.m(552B)
----LineReg.m(518B)
----AccordAnalysis.m(480B)
----BackReg.m(890B)
----CompPoly2Reg.m(786B)