大数据心得体会.doc

时间:2022-12-24 14:49:05
【文件属性】:

文件名称:大数据心得体会.doc

文件大小:65KB

文件格式:DOC

更新时间:2022-12-24 14:49:05

文档资料

大数据心得体会 早在2007年,人类制造的信息量有史以来第一次在理论上超过可用存储空间总量,近 几年两者的剪刀差越来越大。2010年,全球数字规模首次达到了"ZB"(1ZB=1024TB)级 别。2012年,淘宝网每天在线商品数超过8亿件。2013年底,中国手机网民超过6亿户。 随着互联网、移动互联网、传感器、物联网、社交网站、云计算等的兴起,我们这个社 会的几乎所有方面都已数字化,产生了大量新型、实时的数据。无疑,我们已身处在大 数据的海洋。 有两个重要的趋势使得目前的这个时代(大数据时代)与之前有显著的差别:其一, 社会生活的广泛数字化,其产生数据的规模、复杂性及速度都已远远超过此前的任何时 代;其二,人类的数据分析技术和工艺使得各机构、组织和企业能够以从前无法达到的 复杂度、速度和精准度从庞杂的数据中获得史无前例的洞察力和预见性。 大数据是技术进步的产物,而其中的关键是云技术的进步。在云技术中,虚拟化技术 乃最基本、最核心的组成部份。计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数 据在数据存储、挖掘、分析和应用分享等方面不仅在技术上可行,在经济上也可接受。 在人类文明史上,人类一直执着探索我们处的世界以及人类自身,一直试图测量、计 量这个世界以及人类自身,试图找到隐藏其中的深刻关联、运行规律及终极答案。大数 据以其人类史上从未有过的庞大容量、极大的复杂性、快速的生产及经济可得性,使人 类第一次试图从总体而非样本,从混杂性而非精确性,从相关关系而非因果关系来测量 、计量我们这个世界。人类的思维方式、行为方式及社会生活的诸多形态(当然包括商 业活动)正在开始发生新的变化。或许是一场革命性、颠覆性的变化。从这个意义上讲 ,大数据不仅是一场技术运动,更是一次哲学创新。 1 大数据的概述 1.1 大数据的概念 大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模 和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值 ,我们必须选择另一种方式来处理它。 数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信 息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今 的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在 车库中创业的公司也可以用较低的价格租用云服务时间了。 对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数 据进行分析能揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析 能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Face book通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模 式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和 Facebook,它们都是大数据时代的创新者。 1.2 大数据的三层关系 第一层关系:数据与机器的关系。大数据纪元刚开始,产业界碰到的第一个核心问题 就是"大"的问题。做了几十年的数据仓库甚至海量并行处理的数据库都不能处理那么大 的数据,怎么办?需要范式切换。主要有三个方面,新型的数据与机器关系当中的第一 条就是重新考虑架构与算法,重新考虑舍得,有舍才能得,天下没有免费的午餐,所以 必须要舍弃一些,得到一些新的。必须舍弃贵族化的高端小型机和UNIX服务器,得到平 民化的更大量的X86服务器。通过这样一种可横向、可水平扩展服务器处理每两年翻番的 数据量的挑战。第二个舍得是舍弃硬件的可靠性和可用性,得到软件的可靠性和可用性 。这也就是谷歌三大论文以及Hadoop的核心重点。第三个舍得是舍弃传统数据库的强一 致性,获得更放松一致性、可扩展架构,如NoSQL。第四个舍得是传统算法强调非常严格 的精确性,现在要放弃一些精确性,通过近似、采样这种方式来获得更好的扩展性。 最早大数据的处理范式是Mapreduce的批量处理,英特尔慢慢有其他的需求,实时的 流处理、多迭代的处理、图计算、即时查询等等新的范式百花齐放,最后万法归宗。刚 才王斌老师将讲的SAP的HANA本身就是数据管理和分析的融合,现在非常流行的Hadoop之 后的SPARK,就是把前面的各种范式进行了融合。 存储与内存的消长,大数据第一个要解决把数据存储下来,后来发现要把它放到大的内 存里进行处理,获得实时性,接着在存储和内存之间现在又出现了闪存,有闪存化甚至 全闪存的存储,也有闪存化的内存,把所有的计算在闪存里面处理,已经被微软、Face book等等大量使用。大家可以预期,两年以后出现新的非易失性的闪存,它的速度可能 要比闪存快几百倍,和内存相似,这又会极大地颠覆数据与机器的关系。 第二层关系:数据与人的关系。主


网友评论