文件名称:大数据调研报告(多篇).docx
文件大小:58KB
文件格式:DOCX
更新时间:2022-12-24 15:36:03
文档资料
大数据调研报告(多篇)全文共18页,当前为第1页。大数据调研报告(多篇)全文共18页,当前为第1页。大数据调研报告(多篇) 大数据调研报告(多篇)全文共18页,当前为第1页。 大数据调研报告(多篇)全文共18页,当前为第1页。 根据IDC的调查报告预测到20XX年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量)。大数据浪潮的到来也为企业带来了新一轮的挑战。对于有准备的企业来说这无疑是一座信息金矿,能够合理的将大数据转换为有价值信息成为未来企业的必备技能。恰逢此时,CSDN专门针对企业相关人员进行了大规模问卷调研,并在数千份的调查报告中总结出现今企业大数据业务的现状。在此我们也将调研结果展示与此以供大家参考。 大数据时代的数据格式特性 首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构: 结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询; 半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由; 非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。 企业内部大数据处理基础设施普遍落后 从调查结果可以看出,接近50%的企业服务器数量在100台大数据调研报告(多篇)全文共18页,当前为第2页。大数据调研报告(多篇)全文共18页,当前为第2页。以内,而拥有100至500台占据了22%的比例。500至20XX年台服务器则占据剩下%的比例。可以看出面对大数据现今大部分企业还没有完善其硬件基础架构设施。以现阶段企业内大数据处理基础设施的情况来看50%的企业面临大数据处理的问题(中小企业在面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程)。 但这只是暂时状况,"廉价"服务器设施会随着企业业务的发展逐渐被淘汰出历史的舞台,在未来企业基础架构体系的硬件选用上,多核多路处理器以及SSD等设备会成为企业的首选。Facebook的Open Compute Project就在业界树立了榜样,Open Compute Project利用开源社区的理念改善服务器硬件以及机架的设计。其数据中心PUE值也是领先与业内的其他对手。 而在具有大数据处理需求的企业中%的日数据生成量在100GB以下,日数据生成量100GB到50TB占据了%,而令人惊讶的是,日数据生成量50TB以上也有%的份额。数据量持续的增长,公司将*增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。对于急需改变自己传统IT架构的企业而言,传统的结构化数据与非结构化数据的融合,成了所有人关心的问题。 企业面对大数据处理的挑战与问题 现今大数据呈现出"4V + 1C"的特点。既Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。 从图中我们可以看出资源利用率低、扩展性差以及应用部署过于复杂是现今企业数据系统架构面临的主要问题。其实大数据的基础架构首要需要考虑就是前瞻性,随着数据的不断增长,用大数据调研报告(多篇)全文共18页,当前为第3页。大数据调研报告(多篇)全文共18页,当前为第3页。户需要从硬体、软件层面思考需要怎样的架构去实现。而具备资源高利用率、高扩展性并对文件存储友好的文件系统必将是未来的发展趋势。 应用部署过于复杂也催生了大数据处理系统管理员这一新兴职业,其主要负责日常Hadoop集群正常运行。例如直接或间接的管理硬件,当需要添加硬件时需保证集群仍能够稳定运行。同时还要负责系统监控和配置,保证Hadoop与其他系统的有机结合。 而多格式数据、读写速度(读写速度是指数据从端点移动到处理器和存储的速度)以及海量数据是企业面临大数据处理急需解决的技术挑战。众所周知随着大容量数据(TB级、PB级甚至EB级)的出现,业务数据对IT系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成为难点。同时大数据