清华大学海洋大数据分析管理平台
一、平台架构
总体来说,海洋大数据的硬软件平台架构可分为三个层面:数据层、技术层和应用层(见图2)。数据层是海洋大数据平台的基础,包括各类海洋数据采集平台的数据,如地、天、空、海岸、船、油气平台、水下移动等观测到的海洋遥感数据、物理数据、生物数据、化学数据等;经过数据预处理技术,将多源异构的海洋大数据进行统一模式的组织和管理。技术层包括多源异构海洋大数据的融合、分析、挖掘、预报、可视化等技术,并对相关技术进行集成和云平台开发,实现海洋数据的个性化检索,并对海洋要素进行精准预报。应用层是在数据检索和技术集成的基础上,对海洋应用模块集中整合,建设综合、开放的海洋应用服务管理系统(见图3),为科学研究和行业应用提供数据共享、信息处理、决策支持、业务化运行等服务。
二、各层次平台分析
数据获取平台:数据采集是整个海洋大数据平台建设的起始端。利用海洋通信技术和互联网技术,开展包括天基(卫星、航空飞机、无人机等)遥感、近海测绘、海洋浮标、海洋科考、水下探测等在内的数据采集。由于海洋大数据具有多源异构的特点,因此需要对数据进行预处理,如数据“清洗”,为后续流程提供统一高质量的数据集。
存储与计算平台:获取的数据通过无线或有限网络传输至基于云计算的基础平台,采用云存储、虚拟化网络、虚拟主机服务以及云平台对海洋大数据进行存储和管理。其核心技术包括分布式文件存储以及分布式计算。例如,由Apache基金会所开发的分布式系统基础架构Hadoop ,其最核心的设计是分布式文件系统(HadoopDistributed File System,HDFS)和MapReduce;HDFS为海量数据提供存储,MapReduce则为海量数据提供计算。分布式文件存储典型代表有Hadoop的HDFS+HBas。文件存储方案、谷歌的GFS+BigTable文件存储方案等。
分析与应用平台:数据分析是海洋大数据处理的核心流程,利用分析方法或工具对数据进行检查、变换和建模,从中提取数据潜在价值。数据分析技术包括分类、聚类、关联规则、遗传算法、神经网络、预测模型、模式识别、时间序列分析、回归分析、系统仿真、机器学习、优化、空间分析、社会网络分析等。通过对数据的实时分析和处理,应用于海洋防灾减灾、海洋环境监测、海洋渔情预报等领域。
信息可视化平台:通过建立海洋数据的分析和应用模型,实现海洋要素、海洋过程、海洋预报的多维、动态、可视化表达,为海洋科学研究和行业内应用提供信息可视化服务。
决策与发布平台:基于以上平台系统,通过网络计算机、智能手机APP等灵活、机动的客户端方式,为海洋领域相关单位和个人提供快速实时的决策支持服务,包括海洋信息咨询、海洋污染监测预警、海洋渔场监测、海洋维权指挥等。
此外,目前也函需开发“海洋+’’的海洋大数据行业应用,通过建立技术转移平台和产业孵化平台,在海洋技术、海洋预报、海洋经济等相关领域提供海洋大数据信息服务和决策支持服务。
三、常见的大数据平台示例
1. Sqoop技术用作关系型数据库与分布式数据库数据流通。
2. Flume是一个日志收集系统,能够获取数据也可以发送数据。
3.DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracl等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
4..Sequence File是一种二进制文件,可以将大量小文件合并为一个大文件。
5.hdfs只是一个存储空间,他的完整名字是分布式文件系统。从名字可知他的作用了。hbase是一个内存数据库,简单点说hbase把表啊什么的存在hdfs上。
6.YARN集群资源管理器,也就是管理计算机基础资源在集群计算机上的分配。
7. Mapreduce最本质的两个过程就是Map和Reduce,Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map;Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Reduce。
8. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。