大数据行业分析报告DOC.doc

时间:2022-12-23 22:21:53
【文件属性】:

文件名称:大数据行业分析报告DOC.doc

文件大小:732KB

文件格式:DOC

更新时间:2022-12-23 22:21:53

文档资料

大数据行业分析报告 (2014) 江苏振邦智慧城市信息系统有限公司 2014年4月25日 目录 一、大数据概述 1 1、大数据简介 1 2、大数据特征 1 3、大数据的技术 2 4、大数据的应用 2 5、大数据处理方法 2 二、大数据发展现状与趋势分析 4 1、国外现状 4 2、国内现状 5 3、发展趋势分析 6 三、重点应用领域及行业企业分析 8 1、重点应用领域 9 2、重点企业 13 3、国内运营商分析 18 四、存在问题及对策分析 19 1、数据量的成倍增长挑战数据存储能力 19 2、数据类型的多样性挑战数据挖掘能力 20 3、对大数据的处理速度挑战数据处理的时效性 20 4、数据跨越组织边界传播挑战信息安全 20 5、大数据时代的到来挑战人才资源 20 五、大数据方面的相关政策和法规 21 1、数据生产的相关政策和法规 21 2、数据共享的相关政策与法规 21 3、隐私保护的相关政策和法规 22 一、大数据概述 1、大数据简介 随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大量新数据源 的出现导致了非结构化、半结构化数据爆发式的增长。这些数据已经远远超越了目前人 力所能处理的范畴,如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的 概念应运而生。 2、大数据特征 大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内 达到收集、管理、处理、并整理成为帮助企业经营决策目的的咨询。大数据不单单是指 数量的量大,而且包括了以下的四个方面: 首先,数据的体量(volumes)大,大数据的起始计量单位至少是P(1000个T)、E( 100万个T)或Z(10亿个T),和我们所熟知的G相比,体量不可谓不大。其次,是数据类 别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限 定的结构化数据范畴,囊括了半结构化和非结构化数据。再次,是数据处理速度(velo city)快,在数据体量庞大的情况下,也能够做到数据的实时处理。最后,是指数据的 真实性(veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起 ,传统数据源的局限被打破,信息的真实性和安全性显得极其重要。 3、大数据的技术 大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。主要可分 为:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结 果呈现等8种技术。同时,由这几种技术形成了批处理、流处理和交互分析三种计算模式 。 4、大数据的应用 大数据的应用范围非常广。有机构预测,"大数据"的发展,将使零售业净利润增长60%以 上,制造业的产品开发、组装成本将下降50%以上。 在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进 行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销 售损失。 在商业上,国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时 间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。 在*决策上,分析几十年来的天气数据,将各地降雨、气温、土壤状况和历年农作物 产量做成精密图表,就可以预测农产品生产趋势,*的激励措施、作物存储量和农业 服务也可以随之确定。 5、大数据处理方法 大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集 、导入和预处理、统计和分析,最后是数据挖掘。 (1)、采集。大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感 器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如 ,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外, Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。   在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千 上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值 时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之 间进行负载均衡和分片是需要深入的思考和设计。 (2)、导入/预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进 行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库, 或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一 些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的 实时计算需求。 导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百 兆,甚至千兆级别。 (3)、统计分析。统计与分析主


网友评论