文件名称:大数据与统计分析综述.pdf
文件大小:237KB
文件格式:PDF
更新时间:2022-12-24 11:49:24
文档资料
大数据与统计分析综述 发表时间:2018-12-18T10:18:29.840Z 来源:《基层建设》2018年第31期 作者: 赵丹丽 房庭栋 [导读] 摘要:随着信息技术的发展越来越快,普及程度越来越高,大数据对生活各领域的影响也越来越大。 河南中烟黄金叶生产制造中心 河南郑州 450000 摘要:随着信息技术的发展越来越快,普及程度越来越高,大数据对生活各领域的影响也越来越大。许多领域的发展不得不进行改 革,以适应大数据时代。统计学也受到了一定的影响。大数据具有规模大、种类多、更新速度快的特点,这要求统计的方式必须随之改 进,这样才能有效的工作。本文就大数据与统计进行了分析探讨,以供参阅。 关键词:大数据;统计分析 引言 要想对大数据的概念内容展开分析,需要根据不同行业、不同领域的区别展开较为深入的研究。从传统意义上来分析,对于数据这一 概念内容的理解,多是通过实验、统计、检验等方法获得相应的数值信息、记录信息等,这些内容具有固定、有限和不可扩充的特性。而 针对大数据,概念上却是不尽相同的。从统计学的角度进行分析,大数据不仅仅是量大,同时也具备了多样、高速化的特征。在当下的时 代发展过程中,大数据已然成为了人们所共同关注的重要话题,本文通过对大数据和统计新思维的内容展开探究,希望能起到一些积极的 参考作用。 1大数据的内涵 "大数据"是近几年来比较流行的一个词汇,在生活中出现的频率非常高,尤其是在研究领域。对于这个词,不同领域的人有不同的理 解。从统计学的角度来解读,大数据就是建立在现代信息技术和手段基础上,连续的、扩充的数据形式。这种数据的存储能力和记录能力 比传统数据要高出许多,其突出特点是数据量的规模十分庞大;记录的信息涵盖的范围很广,几乎无所不及;信息的内容质量参差不齐, 鱼龙混杂。同时,信息的更新速度非常快,有利用价值的信息可能很快就被淹没,需要及时的捕捉。简单的说,大数据就是所有可记录信 息的集合体。 2大数据背景下统计思维的变化 2.1数据认识上的改变 从数据来源的方面进行观察,可以发现以往样本数据是按照某种方法来进行收集的,但是大数据的内容主要是来源于网络,数据库内 的信息记录不带有目的性,所以这也就导致大数据在来源上难以追溯。还有,大部分样本数据的类型都属于是结构型,而大数据的类型则 是半结构、半结构和异构性的特点;最后就是之前的样本数据可靠性相关的理论基础,对于一些结构型的数据可以实施量化的处理,但是 由于大数据的复杂性特点,所以量化方式也要做出适当的改变。 2.2数据思维收集上的改变 传统的数据收集是需要先有收集的目的和原因,然后才开始进行收集数据的,在收集过程中是需要进行调查的,还要经审设计收集的 方式,因此传统的数据收集所消耗的时间和精力都很大,但是在大数据以后,统计的思路就需要进行改变,人们在收集数据上的选择就更 多,在种类和体量上,统计分析的对象的选择权更多,因此统计分析的转变方向就是怎样利用好大数据,为统计分析服务,只要做好选择 和比较的功课就行。但是统计分析,依据大数据的多样性,和增加速度之快,还存在一定的课题需要攻破,那就是存储能力、分析能力以 及数据鉴别能力等,因为大数据的数据库的存储能力需要不断的更新和扩大,随着存储的数据的增多,而保存数据也是需要一个地方,一 旦保存数据丢失,就会产生严重的后果,同时影响大数据的运用。 2.3数据分析上的改变 以往的数据分析上,统计思维主要是按照"定性—定量—再定性"的内容来进行,其中定性的目的是为了确定定量分析的大方向,然后 借助相关的工作经验,做出有效的判断来,这种方法在数据缺失运算受限的情况下十分的重要。当前的分析判断主要来自于数据,根据这 些内容找出定量回应的工作内容,寻找出数量管理的内宽容,进而可以做出最终的决断;还有,以往的统计思维实证需要分析。根据数据 的研究目的,做出相应的假设来,然后收集、分析数据,判断该项假设是否成立,这种方法很容易会受到假设条件所带来的限制,出现指 标选择不当的问题;最后就是传统统计思维是根据数据分布理论,按照一定概率来做出保障,推断评判的标准和样本内容之间不存在关 系,其推断结果的准确性,直接取决于样本的质量。 3大数据背景下统计新思维的发展方向 (1)增加对统计人才的培养。在现代社会,不管是企业还是事业单位,对统计人才的需求量都很大,更多时候是为了适应信息时代的 发展,增加自己的竞争力,同时也是统计系统电子化的数据的需要,所以就需要培养很多的统计思维的管理人才,同时对这些人才进行系 统的培训和管理,并且鼓励这些人才发挥自己的能力服务社会,加强各部门之间的沟通,同时在自己的本职工作基础上进行工作创新,促 进人才的培养。(2)加强科学的推算。对于统计数量的推算工作,传统的统计推算是否准确,是统计质量决定的,但是在