数据采集在大数据中的应用.doc

时间:2022-12-24 15:51:17
【文件属性】:

文件名称:数据采集在大数据中的应用.doc

文件大小:391KB

文件格式:DOC

更新时间:2022-12-24 15:51:17

文档资料

数据采集在大数据中的应用 作者:刘阳 来源:《数码设计》2018年第09期 摘要: 当今世界已经进入了一个信息化时代,大数据在很多行业中都扮演着十分重要的角色, 影响着人们的生产生活方式。本文围绕数据采集在大数据中的应用展开研究,重点分析 了大数据的概念、数据采集的方式方法与如何用Python来进行数据采集。 关键词: 大数据;互联网;信息;数据采集 中图分类号: TP212.9;TN929.5;; ;文献标识码: A;; ;文章编号: 1672- 9129(2018)09-0006-01 Abstract: ;the world has entered an information age. Big data plays a very important role in many industries, influencing people's production and lifestyle. This paper conducts research on the application of data collection in big data, and mainly analyzes the concept of big data, methods and methods of data collection and how to use Python to conduct data collection. Key words: ;;big data;Internet;Information;The data collection 1 大数据概述 大数据的含义是不能够在一定的时间范围里面使用常规软件工具来进行捕捉、 管理与处理的数据集合,是需要使用新的处理模式才能够具有更加强烈的决策能力、洞 察能力以及流程优化能力的海量、增长率较高、内容多样化的信息资产[1]。大数据技术 的推广和使用,最为重要的意义不在于掌握和管理庞大的数据库,而是对这些含有一定 意义的数据作出更加专业化、科学性的处理和利用。换句话来说,如果把大数据看成是 一种产业的话,那么这一产业能够取得经济利益的关键之处,就在于提高对数据的"加工 能力",通过对数据进行加工来做到对数据价值的提升。适用于大数据的技术,包括数据 采集、大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云 计算平台、互联网和可扩展的存储系统。下面我们就大数据采集方式方法做简单介绍。 2 数据采集的方式方法 2.1系统日志采集方法。绝大部分的互联网企业都拥有自己专属的海量数据采集 工具,一般是用于对系统日志进行采集,例如Hadoop的Chukwa、Fecebook专用的Scribe 以及Cloudera的Flume等等,这些工具都是采取分布式类型的架构,可以满足很大的使用 需求,绝大多数都可以满足每秒时间内数百MB的日志数据采集以及传输需求。 2.2网络数据采集方法。网络数据采集方法的意思是说通过利用网络爬虫或者是 网站公开API等各种方式从网站上面得到相关的数据信息。使用这种方法能够非常简单地 将一些非结构化的数据从网页之中抽取出来,并且将这些数据信息统一地存储在本地的 数据文件之中,并且能够以结构化的形式进行存储。这种数据采集方法能够采集图片数 据信息、音频数据信息以及视频数据信息,而且也能够采集附件,附件能够和正文之间 自动地关联在一起。除了互联网中包含的一些信息内容之外,对于那些网络流量进行采 集的时候一般会选择使用DPI或者是DFI等一些宽带管理技术来进行处理。 2.3其他数据采集方法。对于那些对企业生产经营数据或者是有关学科的研究数 据等保密程度要求比较高的数据信息来说,可以采用与企业或者是科学研究机构进行合 作的方式,通过使用特定系统接口等一些有关的方式来对数据进行收集。 2.4大数据采集平台。Apache Flume。Flume是Apache旗下开发出来的一款具有多重优势的数据采集系统,其具有的优 势主要有可靠度高、扩展性强、管理简便易行、支持客户扩展等等。Flume是通过Jruby 来进行构建的,因此其运行环境依靠Java来实现。 Splunk Forwarder。Splunk属于一个分布式类型的机器数据平台,主要扮演着三个重要的角色: Search Head承担的主要任务是对数据进行搜索和处理,同时需要提供搜索过程中的信息抽取情 况;Indexer主要负责对相关数据进行存储和索引;Forwarder主要负责对数据进行收集、 清洗和变形处理,并且发送给Indexer. Python属于一种开源语言,这种语言能够提供十分丰富的API和工具,能够通过 使用C语言和C++等对这一模块进行编写和扩写,也能够通过第三方库来进行,具备非常 高的灵活性和适应


网友评论