大数据平台架构.pdf

时间:2022-12-24 12:40:45
【文件属性】:

文件名称:大数据平台架构.pdf

文件大小:196KB

文件格式:PDF

更新时间:2022-12-24 12:40:45

文档资料

⼤数据平台架构 前⾯提到各种⼤数据技术的原理与架构,⼤数据计算通过将可执⾏的代码分发到⼤规模的服务器集群上进⾏分布式计算,以处理⼤规模的数 据,即所谓的移动计算⽐移动数据更划算。但是这样的计算⽅式必然不会很快,即使⼀个规模不太⼤的数据集上的⼀次简单计 算,MapReduce也可能需要⼏分钟,Spark快⼀点,也⾄少需要数秒的时间。 ⽽⽹站处理⽤户请求,需要毫秒级的响应,也就是说,要在1秒内完成计算,⼤数据计算必然不能实现这样的响应要求。但是⽹站应⽤⼜需 要使⽤⼤数据实现统计分析、数据挖掘、关联推荐、⽤户画像等⼀系列功能。 所以⽹站需要构建⼀个⼤数据平台,去整合⽹站应⽤和⼤数据系统之间的差异,将应⽤程序产⽣的数据导⼊到⼤数据系统,经过处理计算后 再导出给应⽤程序使⽤。⼀个典型的⽹站⼤数据平台架构如下图: ⼤数据平台可分为三个部分 数据采集 将应⽤程序产⽣的数据和⽇志等同步到⼤数据系统中,由于数据源不同,这⾥的数据同步系统实际上是多个相关系统的组合。数据库同步通 常⽤Sqoop,⽇志同步可以选择Flume,打点采集的数据经过格式化转换后通过Kafka传递。 不同的数据源产⽣的数据质量可能差别很⼤,数据库中的数据也许可以直接导⼊⼤数据系统就可以,⽽⽇志和爬⾍产⽣的数据就需要进⾏⼤ 量的清洗、转化处理才能有效使⽤。所以数据同步系统实际上承担着传统数据仓库ETL的⼯作。 数据处理 这⾥是⼤数据存储与计算的核⼼,数据同步系统导⼊的数据存储在HDFS。MapReduce、Hive、Spark等计算任务读取HDFS上的数据进 ⾏计算,再将计算结果写⼊HDFS。 MapReduce、Hive、Spark等进⾏的计算处理被称作是离线计算,HDFS存储的数据被称为离线数据。相对的,⽤户实时请求需要计算的 数据称为在线数据,这些数据由⽤户实时产⽣,进⾏实时在线计算,并把结果数据实时返回⽤户,这个计算过程中涉及的数据主要是⽤户⾃ ⼰⼀次请求产⽣和需要的数据,数据规模⾮常⼩,内存中⼀个线程上下⽂就可以处理。 在线数据完成和⽤户的交互后,被数据同步系统导⼊到⼤数据系统,这些数据就是离线数据,其上进⾏的计算通常针对(某⼀⽅⾯的)全体 数据,⽐如针对所有订单进⾏商品的关联性挖掘,这时候数据规模⾮常⼤,需要较长的运⾏时间,这类计算就是离线计算。 除了离线计算,还有⼀些场景,数据规模也⽐较⼤,要求的处理时间也⽐较短。⽐如淘宝要统计每秒产⽣的订单数,以便进⾏监控和宣传。 这种场景被称为⼤数据流式计算,通常⽤Storm、Spark Steaming等流式⼤数据引擎来完成,可以在秒级甚⾄毫秒级时间内完成计算。 数据输出与展⽰ ⼤数据计算产⽣的数据还是写⼊到HDFS中,应⽤程序不可能到HDFS中读取数据,所以必须要将HDFS中的数据导出到数据库中。数据同 步导出相对⽐较容易,计算产⽣的数据都⽐较规范,稍作处理就可以⽤Sqoop之类的系统导出到数据库。 这时,应⽤程序就可以直接访问数据库中的数据,实时展⽰给⽤户,⽐如展⽰给⽤户的关联推荐的商品。淘宝卖家的量⼦魔⽅之类的产品, 其数据都来⾃⼤数据计算产⽣。 除了给⽤户访问提供数据,⼤数据还需要给运营和决策层提供各种统计报告,这些数据也写⼊数据库,被相应的后台系统访问。很多运营和 管理⼈员,每天⼀上班,就是登录后台数据系统,查看前⼀天的数据报表,看业务是否正常。如果数据正常甚⾄上升,就可以稍微轻松⼀ 点,如果数据下跌,焦躁⽽忙碌的⼀天也马上就开始了。 将上⾯三个部分整合起来的是任务调度管理系统,不同的数据何时开始同步,各种MapReduce、Spark任务如何合理调度才能使资源利⽤ 最合理、等待的时间⼜不⾄于太久,临时的重要任务能够尽快执⾏,这些都需要任务调度管理系统完成。有时候对分析师和⼯程师开放的作 业提交、进度跟踪,数据查看等功能也集成在这个系统中。 对于每个公司的⼤数据团队,最核⼼开发维护的也就是这个系统,⼤数据平台上的其他系统⼀般都有成熟的开源软件可以选择,作业调度管 理会涉及很多个性化的需求,通常需要团队⾃⼰开发。


网友评论