文件名称:剖析大数据.docx
文件大小:24KB
文件格式:DOCX
更新时间:2022-12-24 11:29:44
文档资料
剖析大数据 作者:暂无 来源:《计算机世界》 2014年第6期 中国移动通信集团设计院有限公司 史彤 数据可以产生价值吗?十年前,很多人恐怕会对这个问题给予否定或者模棱两可的答案。在那时的观念和技术发展水平下,对于IT 一知半解的人们还没有完全了解数据的本质。大家承认数据本身的价值,却并不了解如何利用数据。 不过,在今天这个大数据(Big Data)时代,几乎没有人会对数据的价值生产能力产生怀疑了。越来越多的人认识到,数据将会成为未来一个非常重要的虚拟资产。 但是培育数据让其产生价值却不是一个容易的事情。大数据由此应运而生,这一当前最为热门的概念集合了多种技术为一体,开发出了一套全新方法,以便捷快速地处理数据。因此大数据并不是一种单独的技术,相对而言我们可以将其称之为一套技术集合。 为什么需要大数据? 在当今IT 业界中大数据是炙手可热的一个名词,其以简单的语法构成通俗易懂地诠释了什么才是庞大和复杂的数据集。大数据之所以会如此流行,是因为其契合了IT 业界的发展与应用趋势。 最为广泛流传的对大数据的解释莫过于4 个V——海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value),而这恰恰是当前社会对数据的需求组成。为了更好地发展业务,一直以来企业、组织和机构都在对结构化数据进行梳理和统计。不过随着IT 应用在业务中的逐渐深入,决策者们发现他们需要收集的数据不仅存在于销售年报这样的传统信息中,而且还同样存在于网络日志、传感器网络、社交网络、影音文件、互联网搜索索引、详细通话记录、医疗记录、摄影档案、视频档案以及电子商务等内容之中。 这些内容有着多种多样的载体和类型,数据增长和迭代速度极快,相互之间还会存在不同的关联。最终,会积累下非常庞大的体量。近两年吸引了大量投资的视频监控领域,就是大数据内容的一个重要应用实例。其不仅拥有较大的数据规模,产生速度惊人,同时非结构化的数据组成使得很难利用传统IT 技术对其进行处理。不过,由于其与日常生活、工作的密切相关性,视频监控数据又具有而且能够产生极大的价值。当然,我们也要看到,在庞大的数据量背后,视频监控数据的价值密度很低。在动辄数十小时的视频资料中,有时我们需要的仅仅是其中的几分钟或者几秒。但是就是这样,我们依然需要对其进行长期保存。 来自IDC 的调查报告认为,全球的数据资料存储量到2020 年将达到40ZB,而数字信息的主要制造者也将从现有的成熟市场转移至新兴市场。比如说,各种物联网传感器产生的数据量占比将从2005 年的11%增长到2020 年的40%。 传统的关系型数据库没办法将这些内容加以消化。从应用角度,业界需要大数据这样的概念指导,为企业、组织和机构开发出一套全新方法和一系列技术,使得决策者们不仅能够处理传统数据,同时可以便捷地分析和应用这些新兴数据,而不是仅仅进行储存。 大数据的技术构成 剖析大数据全文共3页,当前为第1页。 剖析大数据全文共3页,当前为第1页。 在大数据概念中,目前还没有哪项单一技术能够满足所有应用需求。这些大数据技术或针对数字营销数据进行优化,或分析社交网络数据,再或者主要用已知数据来预防未知的风险,其应用领域比较具有针对性。 我们可以将一套完整的大数据平台拆分成几个不同的技术领域。从宏观上来看,大数据平台包含了三个重要的技术部分。 首先是数据交易技术。这一部分技术所从事的工作,是对一些传统的关系型数据或者非结构化数据进行处理,这些数据包括ERP 应用、数据仓库应用、在线交易处理(OLTP)等。 数据交互是第二类组成部分,其也是成长最迅速的一类大数据技术。数据交互技术主要是对社交网络、物联网设备和传感器、地理定位、影像文件、互联网点击、电子邮件等应用产生的数据进行处理。 最后是对数据的处理。在这一部分中,包含了技术架构、计算方式等内容。知名的Hadoop 平台就是其中的一份子。 另一方面,从微观层面,我们可以将大数据平台再进行更加细致的剖析。 1. 数据存储 数据存储是大数据平台的根本,也是所有大数据技术中产品种类最多的一个组成部分。没有了存储平台,数据也就没有了载体。在数据存储的组成中,包括了高性能的内核式分布存储系统、用户级的分布式存储以及业务级别的数据存储。这其中不乏LustreFS、Hadoop HDFS 这样的知名产品。 2. 数据同步 这一部分技术主要用于将基础架构产生的数据内容进行转换,以完成数据处理、系统监控等方面的操作。 3. 数据开发 顾名思义,数据开发技术主要承担了搭建大数据平台上层建筑的任务。其中涵盖了用户认证、数据鉴权、工作流、数据管理等多方面的任务。 4. 数据呈现 数据可视化是这一部分的一个重要主题。Facebook 为了更好地应用大数