文件名称:我对大数据的看法.pdf
文件大小:141KB
文件格式:PDF
更新时间:2022-12-24 15:46:39
文档资料
我对⼤数据的看法 我对⼤数据的看法 ⼤数据 ⼤数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨⼤到⽆法透过⽬前主流软件⼯具,在合理时间内达到撷取、管理、处理、并 整理成为帮助企业经营决策更积极⽬的的资讯。 ⼤数据的4V特点:Volume(⼤量)、Velocity(⾼速)、Variety(多样)、Veracity(精 确)。⼤数据最核⼼的价值就是在于对于海量数据进⾏存储和分析。 ⼤数据通常⽤来形容⼀个创造的⼤量⾮结构化和半结构化数据,这些数据在下载到关系型数据库⽤于分析时会花费过多时间和⾦钱。⼤数据 分析常和联系到⼀起,因为实时的⼤型数据集分析需要像MapReduce⼀样的框架来向数⼗、数百或甚⾄数千的电脑分配⼯作。⼤数据需要 特殊的技术,以有效地处理⼤量的容忍经过时间内的数据。适⽤于⼤数据的技术,包括⼤规模(MPP)数据库、数据挖掘电⽹、、、、互联 ⽹和可扩展的。从某种程度上说,是数据分析的前沿技术。简⾔之,从各种各样类型的数据中,快速获得有价值信息的能⼒,就是⼤数据技 术。 当前⽤于分析⼤数据的⼯具主要有Hadoop。Hadoop旨在通过⼀个⾼度可扩展的分布式批量处理系统,对⼤型数据集进⾏扫描,以产⽣其结 果。Hadoop项⽬包括三部分,分别是Hadoop Distributed FileSystem(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。 不适合使⽤Hadoop来解决的问题:1、最最重要⼀点,Hadoop能解决的问题必须是可以MapReduce的;2、数据结构不满⾜key-value这样 的模式的;3、Hadoop不适合⽤来处理⼤批量的⼩⽂件;4、Hadoop不适合⽤来处理需要及时响应的任务,⾼并发请求的任务。 未来,数据可能成为最⼤的交易商品。但数据量⼤并不能算是⼤数据,⼤数据的特征是数据量⼤、数据种类多、⾮标准化数据的价值最⼤ 化。因此,⼤数据的价值是通过数据共享、交叉复⽤后获取最⼤的数据价值。在他看来,未来⼤数据将会如基础设施⼀样,有数据提供⽅、 管理者、监管者,数据的交叉复⽤将⼤数据变成⼀⼤产业。据统计,⼤数据所形成的市场规模在51亿美元左右,⽽到2017年,此数据预计 会上涨到530亿美元。 我对⼤数据和与云计算的看法: 云计算是⼀种按使⽤量付费的模式,这种模式提供可⽤的、便捷的、按需的⽹络访问, 进⼊可配置的计算资源共享池(资源包括⽹络,服务 器,存储,应⽤软件,服务),这些资源能够被快速提供,只需投⼊很少的管理⼯作,或与服务供应商进⾏很少的交互,是分布式计算、并 ⾏计算、效⽤计算、⽹络存储、虚拟化、负载均衡等传统计算机和⽹络技术发展融合的产物。 ⼤数据挖掘常和联系到⼀起,因为实时的⼤型数据集分析需要像MapReduce⼀样的框架来向数⼗、数百或甚⾄数千的电脑分配⼯作。只有 在云计算产业已经规模化发展 3 年之后,分布式结构计算才给⼤数据提供了记录的载体。可以说,云计算使⼤数据变成可能,打个⽐⽅,云 计算充当了⼯业⾰命时期的发动机的⾓⾊,⽽⼤数据则是电,是要依靠来进⾏存储和计算的。⽬前,云计算已经普及并成为IT⾏业主流技术, 其实质是在计算量越来越⼤、数据越来越多、越来越动态、越来越实时的需求背景下被催⽣出来的⼀种基础架构和商业模式。云计算为⼤数 据提供了可以弹性扩展,相对便宜的存储空间和计算资源,使得中⼩企业也可以像亚马逊⼀样通过云计算来完成⼤数据分析。⼤数据技术是云 计算技术的延伸。⼤数据技术涵盖了从数据的海量存储、处理到应⽤多⽅⾯的技术,包括海量分布式⽂件系统、并⾏计算框架、NoSQL数 据库、实时流数据处理以及智能分析技术如模式识别、⾃然语⾔理解、应⽤知识库等等。 ⼤数据和云计算肯定是未来的发展所向,所以我们要学好很多算法知识才能弥补我们在编程过程中的不⾜之处。 基于云计算的数据挖掘的优势 (1)由于数据挖掘处理的数据⾜海量的,要从海量的数据中挖掘出理解的知识,⼤规模的数据挖掘⾜必须的。并且随着互联⽹上数据的快 速增长,数据挖掘的任务远⽐搜索任务要复杂,导致了在挖掘过程中需要有很好的开发环境和应⽤环境。这种情况下,基于云计算的⽅式是 ⽐较合适的。 (2)基于云计算实现低成本分布式并⾏计算环境,因此,企业的数据处理成本⼤⼤的降低,同时也不再依存于⾼性能的机器。 (3)基于云计算的数据挖掘开发⽅便,屏蔽了底层。在并⾏化条件下。云计算能够利⽤原有设备提⾼对⼤规模数据的处理能⼒和速度,既 保证了容错性,也增加结点。 总结 我们在学习和了解⼤数据、云计算等过程中,还是要考虑⼀些⽅法来实现。我们有⼤数据,我们要从这些数据中得到我们想要的、对我们有 ⽤的信息,想应对⼤数据时代,数据挖掘这门课就是少不了。简单点来说,⼤数据是矿⽯,数据挖掘是⼀个挖矿的过程,算