数据分析与可视化内容整理

时间:2024-03-24 08:31:46

数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价信息的一个过程。其过程概括起来主要包括:明确分析目的与框架、数据收集、数据处理、数据分析、数据展现和撰写报告等6个阶段。

1、明确分析目的与框架

一个分析项目,你的数据对象是谁?商业目的是什么?要解决什么业务问题?数据分析师对这些都要了然于心。基于商业的理解,整理分析框架和分析思路。例如,减少新客户的流失、优化活动效果、提高客户响应率等等。不同的项目对数据的要求,使用的分析手段也是不一样的。

2、数据收集

数据收集是按照确定的数据分析和框架内容,有目的的收集、整合相关数据的一个过程,它是数据分析的一个基础。

3、数据处理

数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中最占据时间的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。

数据处理主要包括数据清洗、数据转化等处理方法。

4、数据分析

数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目提供决策参考。

到了这个阶段,要能驾驭数据、开展数据分析,就要涉及到工具和方法的使用。其一要熟悉常规数据分析方法,最基本的要了解例如方差、回归、因子、聚类、分类、时间序列等多元和数据分析方法的原理、使用范围、优缺点和结果的解释;其二是熟悉1+1种数据分析工具,Excel是最常见,一般的数据分析我们可以通过Excel完成,后而要熟悉一个专业的分析软件,如数据分析工具

SPSS/SAS/R/Matlab等,便于进行一些专业的统计分析、数据建模等。

5、数据展现

一般情况下,数据分析的结果都是通过图、表的方式来呈现,俗话说:字不如表,表不如图。借助数据展现手段,能更直观的让数据分析师表述想要呈现的信息、观点和建议。

常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等。

6、撰写报告

最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通过分析报告,把数据分析的目的、过程、结果及方案完整呈现出来,以供商业目的提供参考。

一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。

另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,后者是更重要的,否则称不上好的分析,同时也失去了报告的意义,数据的初衷就是为解决一个商业目的才进行的分析,不能舍本求末。

2.数据分析常用的方法有哪些?他们多用来分析哪些类型的数据?通过分析可以得到怎样的结果和结论?怎样得到保证其信度和效度?

常用数据分析方法:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析;

数据分析常用的图表方法:柏拉图(排列图)、直方图(Histogram)、散点图(scatter diagram)、鱼骨图(Ishikawa)、FMEA、点图、柱状图、雷达图、趋势图。

数据分析统计工具:SPSS、minitab、JMP。

常用数据分析方法:

1、聚类分析(Cluster Analysis)

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

2、因子分析(Factor Analysis)

因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。

因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。

3、相关分析(Correlation Analysis)

相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。

4、对应分析(Correspondence Analysis)

对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

5、回归分析

研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

6、方差分析(ANOVA/Analysis of Variance)

又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

数据分析常用的图表方法有:

柏拉图(排列图)

排列图是分析和寻找影响质量主原因素的一种工具,其形式用双直角坐标图,左边纵坐标表示频数(如件数金额等),右边纵坐标表示频率(如百分比表示)。分折线表示累积频率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左向右排列。通过对排列图的观察分析可抓住影响质量的主原因素。

直方图

将一个变量的不同等级的相对频数用矩形块标绘的图表(每一矩形的面积对应于频数)。

直方图(Histogram)又称柱状图、质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。

散点图(scatter diagram)

散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。

鱼骨图(Ishikawa)

鱼骨图是一种发现问题“根本原因”的方法,它也可以称之为“因果图”。其特点是简捷实用,深入直观。它看上去有些象鱼骨,问题或缺陷(即后果)标在"鱼头"外。

FMEA

FMEA是一种可靠性设计的重要方法。它实际上是FMA(故障模式分析)和FEA(故障影响分析)的组合。它对各种可能的风险进行评价、分析,以便在现有技术的基础上消除这些风险或将这些风险减小到可接受的水平。

数据分析统计工具:

SPSS:SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。

minitab:MINITAB功能菜单包括:假设检验(参数检验和非参数检验),回归分析(一元回归和多元回归、线性回归和非线性回归),方差分析(单因子、多因子、一般线性模型等),时间序列分析,图表(散点图、点图、矩阵图、直方图、茎叶图、箱线图、概率图、概率分布图、边际图、矩阵图、单值图、饼图、区间图、Pareto、Fishbone、运行图等)、蒙特卡罗模拟和仿真、SPC(Statistical Process Control -统计过程控制)、可靠性分析(分布拟合、检验计划、加速寿命测试等)、MSA(交叉、嵌套、量具运行图、类型I量具研究等)等。

JMP:JMP的算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便,尤其适合非统计专业背景的数据分析人员使用,在同类软件中有较大的优势。JMP的应用领域包括业务可视化、探索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、试验设计、生存及可靠性、统计分析与建模、交互式数据挖掘、分析程序开发等。JMP是六西格玛软件的鼻祖,当年摩托罗拉开始推六西格玛的时候,用的就是JMP软件,目前有非常多的全球顶尖企业采用JMP作为六西格玛软件,包括陶氏化学、惠而浦、铁姆肯、招商银行、美国银行、中国石化等等。

描述性统计分析

包括样本基本资料的描述,作各变量的次数分配及百分比分析,以了解样本的分布情况。此外,以平均数和标准差来描述市场导向、竞争优势、组织绩效等各个构面,以了解样本企业的管理人员对这些相关变量的感知,并利用t检验及相关分析对背景变量所造成的影响做检验。

2.Cronbach’a信度系数分析

信度是指测验结果的一致性、稳定性及可靠性,一般多以内部一致性(consistency)来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。针对各研究变量的衡量题项进行Cronbach’a信度分析,以了解衡量构面的内部一致性。一般来说,Cronbach’a仅大于0.7为高信度,低于0.35为低信度(Cuieford,1965),0.5为最低可以接受的信度水准(Nunnally,1978)。

3.探索性因素分析(exploratory factor analysis)和验讧性因素分析(confirmatory factor analysis)

用以测试各构面衡量题项的聚合效度(convergent validity)与区别效度(discriminant validity)。因为仅有信度是不够的,可信度高的测量,可能是完全无效或是某些程度上无效。所以我们必须对效度进行检验。效度是指工具是否能测出在设计时想测出的结果。收敛效度的检验根据各个项目和所衡量的概念的因素的负荷量来决定;而区别效度的检验是根据检验性因素分析计算理论上相关概念的相关系数,检定相关系数的95%信赖区间是否包含1.0,若不包含1.0,则可确认为具有区别效度(Anderson,1987)。

4.结构方程模型分析(structural equations modeling)

由于结构方程模型结合了因素分析(factor analysis)和路径分析(path analysis),并纳入计量经济学的联立方程式,可同时处理多个因变量,容许自变量和因变量含测量误差,可同时估计因子结构和因子关系。容许更大弹性的测量模型,可估计整个模型的拟合程度(Bollen和Long,1993),因而适用于整体模型的因果关系。在模型参数的估计上,采用最大似然估计法(Maximum Likelihood,ML);在模型的适合度检验上,以基本的拟合标准(preliminary fit criteria)、整体模型拟合优度(overall model fit)以及模型内在结构拟合优度(fit of internal structure of model)(Bagozzi和Yi,1988)三个方面的各项指标作为判定的标准。在评价整体模式适配标准方面,本研究采用x2(卡方)/df(*度)值、拟合优度指数(goodness.of.f:iJt.in.dex,GFI)、平均残差平方根(root—mean.square:residual,RMSR)、近似误差均方根(root-mean—square-error-of-approximation,RMSEA)等指标;模型内在结构拟合优度则参考Bagozzi和Yi(1988)的标准,考察所估计的参数是否都到达显著水平。

一、信度分析

信度(Reliability)即可靠性,是指采用同一方法对同一对象进行调查时,问卷调查结果的稳定性和一致性,即测量工具(问卷或量表)能否稳定地测量所测的事物或变量。信度指标多以相关系数表示,具体评价方法大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:

大部分的信度指标都以相关系数来表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称作信度系数,主要分为四大类:

重测信度

是指用同样的测量工具,对同一组被测者隔一定时间重复测量,考察两次测量结果的相关程度,可以直接采用相关分析,得到的相关系数即为重测信度系数。也可以对两次重复测试结果做两相关样本差异的统计检验。

2.复本信度

是指让同一组被测者一次填写两份平行问卷,计算两份数据的相关系数,复本信度要求两份问卷除了在问题表述不同之外,其余方面要完全一致,实际操作比较困难。

数据分析与可视化内容整理

3.内部一致性信度

是指测验内部所有题目间的一致性程度。这里的一致性是指题目测量目的的一致,而不是题目描述或形式的一致,主要方法有:

<1>分半信度

是指将一份问卷分成两部分,计算这两部分的相关系数,即分半信度系数,以此来衡量整份问卷的信度

<2>克朗巴哈信度

是最常用的测量内部一致性信度的方法,计算出的克朗巴哈α系数是所有可能分半信度的均值,取值在0-1之间,系数越高一致性越好,常用在量表的信度分析

K为量表做包含的总题目数

si2为量表题项的方差总和

s2为量表题项加总后方差

<3>库德-理查森信度

计算出的KR20系数是克朗巴哈系数的一个特例,用于计算二分类变量的量表

4.评分者信度

用来考察评分者对于问卷评分的信度,有两种方法:

<1>随机抽取一些问卷,由两位评分者评分,然后根据每份问卷的分数计算相关系数

<2>一位评分者两次或两次以上进行评分,然后计算这几次评分的Kendall和谐系数或Kappa系数

对信度系数要注意三点:

1.在不同的情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。

2.信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。

3.获得较高的信度系数并不是测量追求的最终目标,它只是迈向目标的一步,是使测验有效的一个必要条件。

4.提高信度的方法

1.适当延长问卷长度

2.问卷难度适中

3.问卷内容尽量同质

4.测量时间充分

5.测量程序要统一

二、效度分析

效度是指测量工具能够准确测量出所要测量特性的程度,除受随机误差影响外,还受系统误差的影响。效度越高表示测量真实性越高,由于真实值往往未知,所以我们对于效度的评价也不可能有绝对肯定的答案,但是可以用指标来评价,对于一个标准的测量来说,效度比信度更为重要。

效度的性质:

1.效度具有相对性,任何测验的效度都是针对一定的目标而言

2.效度具有连续性?测验效度通常用相关系数表示,它只有程度上的不同,不是“全有”或“全无”的区别。

效度的评估方法:

效度分为四大类:标准效度,内容效度、结构效度、区分效度

1.标准效度:人为指定一种测量结果作为“金标准”,考察其他待测结果与其是否一致

2.内容效度:是一种定性评价标准,主要通过经验判断进行,评价测量指标(问卷内容)的含义是否能准确反映真实情况,通常用专家评价的方法。

3.结构效度:是评价量表效度常用的指标,是指测量结果体现出来的某种结构与测量值之间的对应程度,常使用因子分析。

4.区分效度:如果测量的结果能区分不同的测量结果,就认为该测量具有区分效度,例如如果测量结果能区分A/B两类人群,那么对这两类人群做t检验或方差分析,比较差异是否具有统计学意义,以此判断测量是否具有区分效度。

信度与效度的关系:

1.可信的测量未必有效,而有效的测量必定可信。

2.没有信度就不可能有效度,没有效度,信度也就毫无意义

数据分析与可视化内容整理

情况1:过于分散,既没有效度也没有信度

情况2:点很集中,虽然有一致性,但是没有命中中心,有信度但是无效度

情况3:即有信度也有效度

3.影响数据分析的结果因素有哪些?举例说明?

预期结果分析

(1)描述性模式:该方法通过挖掘历史和当前数据,分析过去展现情况来决定接下来的计划步骤。描述性模式能确定许多不同客户或产品之间的关系,来决定需要采取什么方法向前发展。几乎所有的报表,如:销售、市场、操作以及财务都适用这样的模式进行事后分析,来提出这些问题:发什么什么?多少?频率如何?什么地方?何时?问题关键是什么?应该采取怎样的行动?

(2)预测模式:分析过去可以知道客户可能会有的操作,这样可以预测单一用户的操作。他可以陈述这样的问题:将会发生什么?如果这个趋势持续会怎样?如果…,下一次会怎样?

(3)规范模式:又叫做决定模式。这个模式阐述了所有的决定因素之间的关系,来预测决定可能带来的结果。我们可以预测这样的问题:怎样才能达到最好的效果?怎样应对变数?客户可能感兴趣的其他商品是什么?

数据分析与可视化内容整理

虽然预测分析在现在数据分析中凸显,但是他还是经常以描述模式出现在传统商业智能领域。一个例子看去年的销售收入,再为下一年指定目标。回顾以前的数据,指定未来的目标,这就是数年来商业的标准模式。

更加复杂的预测、规范模式现在正在商业中扮演更加重要的角色,这是因为硬件成本的下降,大量的数据随之而来,特别是非结构化和半结构化数据。

深入理解这些模式间的关系对于正确分析预测数据至关重要。就像所有的项目,刚开始我们都要明确他的商业目标目的一样。一旦有明确的业务目标目的,任何模式或者这三个模式都可以用在BI系统中,为达到最终目标目的服务。

重复筛选(Rinse-and-Repeat )

我们不能忽略掉预测数据给我们带来的误区。大多数情况下,100%精准的数据分析师不可能的,原因如下:

1、历史数据不能准确预测未来

2、预测模式中可能会有不定因素

3、操作各种模式的时候,可能会有偏颇以及不符合实际的预测

数据分析与可视化内容整理

当实践各个模式的时候,可能的错误区域应该被记录。通常表现为预测分析系统质量提高,或者说第三方因素对其的影响下降。因此,不断优化数据分析预测模式非常有必要。模式部署周期,不断优化,不断操作实践,这样可以保证他在分析预测中以最高精度运行。

4.数据统计,数据分析,数据挖掘,数据处理,知识发现,大数据处理等,这些概念之间的区别和联系?

数据统计:数据统计,是互联网传媒行业或其他操作流程的数据统计的统称,用于历史资料、科学实验、检验、统计等领域。以便精准快速的查找与分类。

知识发现:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。知识发现是指在积累了大量数据后,利用各种数据挖掘算法来分析数据库中存储的数据,从中识别出有效的、新颖的、潜在有用的及最终可以理解的知识。我们可以理解为,知识发现就是从数据中发现有用知识的整个过程,即把数据转化为知识、把知识转化为决策的一个多次循环反复的高级处理过程。

数据挖掘:数据挖掘又叫数据开采,数据采掘,分为基于数据库的数据挖掘、基于应用数据的挖掘、基于信息集合的挖掘等多种概念。数据挖掘的定义虽然表达方式不同,但本质都是一样的,我们认为数据挖掘是指从各种数据库或观察的数据集合中提取人们事先未知的、隐含的、潜在有用的、感兴趣的概念、规则、规律、模式等形式的知识,用以支持用户的决策。

数据挖掘和知识发现都可以看作是一门交叉性学科,它们都涉及到机器学习、模式识别、统计学、数据可视化、高性能计算机和专家系统等多个领域,特别是都可以被看成是数据库理论和机器学习的交叉科学。两个术语在定义上有一定的重合度,内涵也大致相同,都是从数据中挖掘或发现隐藏的知识; 它们的研究对象、方法和结果的表现形式等方面基本上都是相同的。因此,有些人认为,数据挖掘与知识发现只是叫法不一样,其含义是相同的。而且,在现今的文献中,有许多场合,如技术综述等,这两个术语仍然不加区分地使用着。

数据挖掘和知识发现有一定的区别。关于数据挖掘和知识发现的区别有不同的表述,典型的表述有两种: ①知识发现是数据挖掘的特例,即把用于挖掘的数据集限制在数据库这种数据组织形式上,因此数据挖掘可以看作是知识发现在挖掘对象的延伸和扩展。②数据挖掘是知识发现过程中的一个特定步骤。知识发现是从数据库中发现知识的全部过程. 而数据挖掘则是此全部过程的一个特定的关键步骤。从知识发现的含义可以得知,知识发现一般可包括以下步骤:

①数据清理,消除噪声和不一致数据;

②数据集成,多种数据源可以组合在一起;

③数据选择,从数据库中检索与分析任务相关的数据;

④数据变换,通过汇总、聚集操作等方式将数据统一变换成适合挖掘的形式;

⑤数据挖掘,使用智能方法提取数据模式;

⑥模式评估,根据某种兴趣度量,识别表示知识的真正有趣的模式;

⑦知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识。

从这 7 个步骤,可以看出,数据挖掘只是知识发现整个过程中的一个特定步骤,它用专门算法从数据中提取数据模式,是知识发现过程中重要的环节。而知识发现是一个高级的复杂的处理过程,它还包括前期处理和后期评估,即是一个应用了数据挖倔算法和评价解释模式的循环反复过程,它们之间相互影响、反复调整。

数据分析:数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。

而两者的具体区别在于:

(其实数据分析的范围广,包含了数据挖掘,在这里区别主要是指统计分析)

· 数据量上:数据分析的数据量可能并不大,而数据挖掘的数据量极大。

· 约束上:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖掘不需要假设,可以自动建立方程。

· 对象上:数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据,比如声音,文本等。

· 结果上:数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。

数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。

5.第(4)题中所列出的概念有哪些数学模型?(写出这些模型的形式化描述),那些是新近的模型,以教育(教学、学习)为例,可以分析和挖掘的数据模型?

数据分析的模型:

(1.)PEST分析模型

(2.)5W2H分析模型

(3.)逻辑树分析模型

(4.)4P营销理论

(5).用户行为模型

数据分析模型的形式化描述:

(1.)PEST分析模型主要针对宏观市场环境进行分析,从政治、经济、社会以及技术四个维度对产品或服务是否适合进入市场进行数据化的分析,最终得到结论,辅助判断产品或服务是否满足大环境。

(2.)5W2H分析模型的应用场景较广,可用于对用户行为进行分析以及产品业务分析。

(3.)逻辑树分析模型主要针对已知问题进行分析,通过对已知问题的细化分析,通过分析结论找到问题的最优解决方案。

(4.)4P营销理论模型主要用于公司或其中某一个产品线的整体运营情况分析,通过分析结论,辅助决策近期运营计划与方案。

(5.)用户行为分析模型应用场景比较单一,完全针对用户的行为进行研究分析。

数据统计的数学模型:

多变量统计分析主要用于数据分类和综合评价。综合评价是区划和规划的基础。从人类认识的角度来看有精确的和模糊的两种类型,因为绝大多数地理现象难以用精确的定量关系划分和表示 ,因此模糊的模型更为实用,结果也往往更接近实际,模糊评价一般经过四个过程:

(1)评价因子的选择与简化;

(2)多因子重要性指标(权重)的确定;

(3)因子内各类别对评价目标的隶属度确定;

(4)选用某种方法进行多因子综合。

1.主成分分析

地理问题往往涉及大量相互关联的自然和社会要素,众多的要素常常给模型的构造带来很大困难,为使用户易于理解和解决现有存储容量不足的问题,有必要减少某些数据而保留最必要的信息。

主成分分析是通过数理统计分析,求得各要素间线性关系的实质上有意义的表达式,将众多要素的信息压缩表达为若干具有代表性的合成变量,这就克服了变量选择时的冗余和相关,然后选择信息最丰富的少数因子进行各种聚类分析,构造应用模型。

2.层次分析法(AHP)

Hierarahy Analysis 是T.L.Saaty等在70年代提出和广泛应用的,是系统分析的数学工具之一,它把人的思维过程层次化、数量化,并用数学方法为分析、决策、预报或控制提供定量的依据。

AHP方法把相互关联的要素按隶属关系分为若干层次,请有经验的专家对各层次各因素的相对重要性给出定量指标,利用数学方法综合专家意见给出各层次各要素的相对重要性权值,作为综合分析的基础。例如要比较n个因素y={yl,y2,…,yn }对目标Z的影响,确定它们在z中的比重,每次取两个因素yi和yJ,用aij表示yi与yJ对Z的影响之比,全部比较结果可用矩阵A=(aij)n*n表示,A叫成对比矩阵,它应满足:

aij>0,aij=1/aij (i,j=1,2,…n)

使上式成立的矩阵称互反阵,必有aij=l。

3.系统聚类分析

聚类分析的主要依据是把相似的样本归为一类,而把差异大的样本区分开来。在由m个变量组成为m维的空间中可以用多种方法定义样本之间的相似性和差异性统计量。

4.判别分析

判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法,与聚类分析不同,它需要已知一系列反映事物特性的数值变量值及其变量值。

判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。根据判别的组数,判别分析可以分为两组判别分析和多组判别分析;根据判别函数的形式,判别分析可以分为线性判别和非线性判别;根据判别时处理变量的方法不同,判别分析可以分为逐步判别、序贯判别等;根据判别标准的不同,判别分析有距离判别、Fisher判别、Bayes判别等。

数据挖掘的数学模型:

可分为四大类

(1.)分类与预测,决策树、神经网络、回归、时间序列

(2.)聚类,K-means,快速聚类,系统聚类

(3.)关联,apriori算法等

(4.)异常值处理。

以教育(教学、学习)为例,可以分析和挖掘的数据模型?

基于教育数据挖掘的网络学习过程监管研究为例进行论述

(1.)教育数据挖掘及其应用。

教育数据挖掘是数据挖掘技术在教育领域的具体应用。根据国际教育数据挖掘工作组网站的定义,教育数据挖掘是指运用不断发展的方法和技术,探索特定的教育环境中的数据类型,挖掘出有价值的信息,以帮助教师更好地理解学生,并改善他们所学习的环境,为教育者、学习者、管理者等教育工作者提供服务。教育数据挖掘的主要目标包括:构建学习者模型,预测学习发展趋势;分析已有教学内容、教学模型,提出改进优化建议;针对各种教育软件系统,评估其有效性;构建教育领域模型,促进有效学习的产生。

数据分析与可视化内容整理
教育数据挖掘的数据来源可以来自于网络学习系统或者教育办公软件等,也可以来自于传统学习课堂或传统测试结果等。数据属性既可以是个人信息(人口学信息),也可以是学习过程信息。教育数据挖掘过程包括数据获取与预处理、数据分析和结果解释三个阶段。教育数据挖掘的模型主要可分为描述性模型和预测性模型两类。——描述性模型用于模式的描述,为决策制定提供参考意见;而预测性模型主要用于基于数据的预测(如预测学生成绩或课程通过情况等)。

(2.)网络学习过程监管的教育数据挖掘模型

根据网络学习的特殊属性及教育数据挖掘流程,本研究构建了如图1所示的网络学习过程监管的教育数据挖掘模型。数据源主要来自网络学习平台数据库,以及教务管理平台数据库中的学生课程考试成绩、个人信息等数据。由于数据来源的多样化,因此在完成数据采集之后,必须对数据进行预处理,包括去除冗余数据、处理缺失数据、数值转换等。

数据预处理完成后,进入教育数据挖掘的核心环节——选择挖掘方法分析数据并得出结果。针对网络学习平台的学习过程监管,使用统计分析与可视化方法了解学习者的网络学习时间分布、偏好页面等;使用关联规则了解学习者的网络学习属性与学业成绩之间的关联;使用聚类分析对学习者分类,教师可以依据分类结果对各类学生进行不同形式的监管,也可根据分类结果给予相应的网络学习效果评价。最后,将教育数据挖掘的结果应用到网络学习过程的监管中,学生进行新一轮的网络学习,产生新的网络学习数据,对产生的新数据继续进行分析。如此不断迭代,对网络学习过程进行调整和优化,使其朝着研究性学习和自主性学习的目标实现可持续发展。

6.大数据的本质特征是什么?

大数据是指按照一定的组织结构连接起来的数据,是非常简单而且直接的事物,但是从现象上分析,大数据所呈现出来的状态复杂多样,这是因为现象是由观察角度决定的.大数据的结构是一个多层次、交织关联的复杂系 统结构,数据是分布在节点上的构成物质,数据之间的关联关系是由节点的位置决定的,而不是由数据本身来决定。也就是说,不同的数据位于同一个节点时,就可 以获得相同的关联关系。

(1.)使用所有的数据

运用用户行为观察等大数据出现前的分析方法,通常是将调查对象范围缩小至几个人。这是因为,整理所有目标用户的数据实在太费时间,所以采取了从总用户群中,争取不产生偏差地抽取一部分作为调查对象,并仅仅根据那几个人的数据进行分析。而使用大数据技术,能够通过发达的数据抽选和分析技术,完全可以做到对所有的数据进行分析,以提高数据的正确性。

(2.)不拘泥于单个数据的精确度

如果我们连续扔骰子,偶尔会连续好几次都扔出同样的数字。但是如果无限增加扔骰子的次数,每个数字出现的概率都将越来越接近六分之一。同样的,在大数据领域,通过观察数量庞大的数据,更容易提高整体而言的数据的精准度。因此,可以不拘泥于个别数据的精确度,而迅速地进阶到数据分析的步骤。(不过这种情况当然不包括人为的篡改等由于外部因素扭曲了数据的情况)

(3.)不过分强调因果关系

企业在考虑服务方针时,会综合考虑现状、问题、改善措施、实施后果等要素之间的相互关系,在此基础上建立假设。但是大数据能够通过观察海量的数据,发现人所注意不到的相互关联。

7.怎样使用并行计算的方法(模型)实现并行数据的处理与分析?

面向大数据处理的并行计算模型及性能优化:

(1.)p-DOT模型分析

p-DOT模型在设计时将BPS模型作为基础,模型的基本组成是一系列iteration,该模型主要由三个层次组成:首先,D-layer,也就是数据层,整个系统的结构呈现出分布式,各个数据节点上存储数据集。其次,O-layer,也就是计算层,假设q为计算的一个阶段,那么该阶段内的所有节点会同时进行独立计算,所有节点只需要处理自己对应的数据,这些数据中包括最初输入的数据,也包括计算中生成的中间数据,这样实现了并发计算,得到的中间结果直接存储在模型中。最后,T-layer,也就是通信层,在q这一阶段内,通信操作子会自动传递模型中的消息,传递过程遵循点对点的原则,因为q阶段中的所有节点在经过计算以后都会产生一个中间结果,在通信操作子的作用下,这些中间结果会被一一传递到q+1阶段内。也就是说,一个阶段的输出数据会直接被作为下一个阶段的输入数据,如果不存在下一个阶段或者是两个相邻阶段之间不存在通信,则这些数据会被作为最终结果输出并存储。

在并行计算模型下,应用大数据和应用高性能之间并不矛盾,因此并行计算模型具有普适性的特征,前者为后者提供模式支持,反过来,后者也为前者提供运算能力上的支持。另外,在并行计算模型下,系统的扩展性和容错性明显提升,在不改变任务效率的前提下,数据规模以及机器数量之间的关系就能够描述出系统的扩展性,而即使系统中的一些组件出现故障,系统整体运行也不会受到影响,体现出较好的容错性。p-DOT模型虽然是在DOT模型的基础上发展起来的,但是其绝对不会是后者的简单扩展或者延伸,而是具备更加强大的功能:一是p-DOT模型可以涵盖DOT以及BSP模型的处理范式,应用范围比较广;二是将该模型作为依据能够构造出时间成本函数,如果在某个环境负载下大数据运算任务已经确定,我们就可以根据该函数计算出整个运算过程所需要的机器数量(这里将最短运行时间作为计算标准);三是该并行计算模型是可以扩展的,模型也自带容错功能,具有一定的普适性。

(2.)2.1 D-layer的优化

要想实现容错性,要对系统中的数据进行备份,因为操作人员出现失误或者是系统自身存在问题,数据有可能大面积丢失,这时备份数据就会发挥作用。一般情况下,系统中比较重要的数据会至少制作三个备份,这些备份数据会被存储在不同场所,一旦系统数据层出现问题就会利用这些数据进行回存。对于数据复本可以这样布局:一是每个数据块中的每个复本只能存储在对应节点上;二是如果集群中机架数量比较多,每个机架中可以存储一个数据块中的一个复本或者是两个复本。从以上布局策略中我们可以看出,数据复本的存储与原始数据一样,都是存储在数据节点上,呈现出分散性存储的特征,这种存储方式是实现大数据容错性的基础。

2.2 O-layer的优化

随着信息技术的发展以及工业规模的扩大,人们对大数据任务性能提出了更高的要求,为了实现提高性能的目标,一般计算机程序会对系统的横向扩展提供支持。随着计算机多核技术的普及,系统的并行处理能力明显增强,计算密度明显提高,对多核硬件资源的利用效率明显提升。传统并行计算模型主要依靠进程间的通信,而优化后的模型则主要依靠线程间的通信,由于后者明显小于前者,因此在利用多核技术进行并行计算时,能够在不增大通信开销的基础上明显提升计算性能。

2.3 T-layer的优化

为了提升计算模型的通信性能,需要对大数据进行深度学习,具体原因如下:首先,无论使用哪种算法,都需要不断更新模型,从分布式平台的角度来说,每一次迭代都代表一次全局通信,而一部分模型的迭代次数又非常多,同时模型中包含大量位移参数以及权重,例如模型Alex Net的基础是卷积神经网络,其迭代次数可以达到45万,耗费系统大量通信开销。其次,如果分布式平台上本身就有很多机器,那么迭代过程就需要将机器的运行或者计算作为基础,就是说要想完成一次迭代,平台上所有的机器都要逐一进行计算,计算完成以后还需要对参数进行同步。这种迭代模式容易受到短板效应的制约,算法通信开销并不取决

于计算速度最快的机器,而是取决于最慢的机器。为了避免短板效应,在对并行计算模型进行优化时,可以采用同步策略,对于计算速度较慢的机器进行加速,提升迭代类任务的通信性能。

8.什么是数据可视化?有哪些可视化方法?有哪些可视化工具?

数据可视化技术包含以下几个基本概念:借助于图形化的手段,清晰、快捷有效的传达与沟通信息。从用户的角度,数据可视化可以让用户快速抓住要点信息,让关键的数据点从人类的眼睛快速通往心灵深处。 数据可视化一般会具备以下几个特点:准确性、创新性 和 简洁性。

①数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间;

②数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;

③数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据;

④数据可视化:是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。

数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。

常用的可视化的方法:

(1)、面积&尺寸可视化

对同一类图形(例如柱状、圆环和蜘蛛图等)的长度、高度或面积加以区别,来清晰的表达不同指标对应的指标值之间的对比。这种方法会让浏览者对数据及其之间的对比一目了然。制作这类数据可视化图形时,要用数学公式计算,来表达准确的尺度和比例。例如:

a: 天猫的店铺动态评分 b: 联邦预算图c: 公司黄页-企业能力模型蜘蛛图

(2)、颜色可视化

通过颜色的深浅来表达指标值的强弱和大小,是数据可视化设计的常用方法,用户一眼看上去便可整体的看出哪一部分指标的数据值更突出。例如:a: 点击频次热力图b: 年度失业率统计c: 手机用户城市分布

(3)、图形可视化

在我们设计指标及数据时,使用有对应实际含义的图形来结合呈现,会使数据图表更加生动的被展现,更便于用户理解图表要表达的主题。例如:

a: iOS手机及平板分布b: 人人网用户的网购调查

(4)、地域空间可视化

当指标数据要表达的主题跟地域有关联时,我们一般会选择用地图为大背景。这样用户可以直观的了解整体的数据情况,同时也可以根据地理位置快速的定位到某一地区来查看详细数据。

(5)、概念可视化

通过将抽象的指标数据转换成我们熟悉的容易感知的数据时,用户便更容易理解图形要表达的意义。

注意:在总结了常见维度的数据可视化方法和范例之后,要再次总体强调下做数据可视化设计时的注意事项,总结了三点如下:

1)设计的方案至少适用于两个层次:一是能够整体展示大的图形轮廓,让用户能够快速的了解图表所要表达的整体概念;之后再以合适的方式对局部的详细数据加以呈现(如鼠标hover展示)。

2)做数据可视化时,上述的五个方法经常是混合用的,尤其是做一些复杂图形和多维度数据的展示时。

3)做出的可视化图表一定要易于理解,在显性化的基础上越美观越好,切忌华而不实。

可视化的工具:1.Excel 2.csv/json 3. Google Chart API 4.浮悬 5.拉斐尔

教育数据分析处理及其在教育领域的研究综述

随着 MOOC 等在线学习平台的飞速发展,针对在线教育数据的挖掘与分析正成为教育学与数据挖掘领域相结合的新研究热点,为分析学习规律和构建课程知识体系提供了新的思路。本综述对面向大规模在线学习平台的教育数据分析的一些相关方法进行综述,并对该领域的一些最新发展趋势进行探讨。从大数据的特征入手,给出了大数据的处理流程,分析了数据采集、数据分析、数据服务、数据可视化的要点,给出了教育大数据的应用模式,从个性化课程分析、教育领域的数据挖掘、监测学生的考试、为教育决策和教育改革提供参考、帮助家长和教师找到适合孩子的学习方法五方面论述了大数据的应用实践。

教育领域的数据挖掘

教育数据挖掘领域侧重于在线教育数据的挖掘分析方法研究,目前主要包括以下几种分析方法:预测、结构挖掘、关系挖掘、模型发现等。预测(prediction) ,指通过对在线教育数据的挖掘得到关于某个变量的模型,从而对该变量未来的走势进行预测,比如数据趋势预测等。目前常用的预测手段包括分类、回归、潜在知识评估(latent knowledge estimation)等。特别是潜在知识评估,作为一种对学生知识掌握情况的评价手段,能够更为客观地对学生知识掌握情况及能力水平进行评测,在 MOOC 平台等在线教育乃至传统教育领域都得到了广泛应用。

结构挖掘(structure discovery)希望在大规模数据中自动挖掘有价值的结构知识,常见的分析手段包括聚类分析(clustering)、因素分析(factor analysis)、社会网络分析(social networkanalysis)、领 域 结 构 发 现(domain structure

discovery)等。

关系挖掘(relationship discovery)用于发现数据中不同变量(如教育因素)之间的关系,包括关联规则挖掘(association rule mining)、相关性分析(correlation mining)、时序模式挖掘(sequential pattern mining)及 因 果 数 据 挖 掘(causal data mining)等研究方向。

教育数据与其他领域中的数据比较起来,有一些独特的特征。总结起来就是教育数据是分层的(hierarchical)。有键击层(keystroke level)、回答层(answer level)、学期层(session level)、学生层(student level)、教室层(classroom level)、教师层(teacher level)和学校层(school level),数据就隐含在这些不同的层之中。教育中的数据挖掘是迈向大数据分析的一项主要工作。互动性学习的新方法已经通过智力辅导系统、刺激与激励机制、教育性的游戏产生了越来越多的尚未结构化的数据。教育中最近的趋势是允许研究者积累大量尚未结构化的数据(unstructured data)。这就使得更丰富的数据能给研究者创造出比过去更多的探究学生学习环境的新机会。

教育大数据的处理

数据分析与可视化内容整理

传统的数据服务 (Data Services) 指的是数据操作密集型Web 服务,它们对用户提供接入数据资源的接口,对内则将数据源及操作进行封装,并对来自用户的搜索和分析请求进行处理。对于企业来说,数据通常被存储在多个应用系统当中,如果想要调用数据,就需要分别连接应用的数据存储系统。数据服务通过提供一个抽象层,为用户隔离了异构数据源的复杂性,使其能够以统一的方式访问或更新数据。目前来说,数据服务的理想应用是数据所有者将数据开放,具有相应权限的用户、客户端和应用程序可通过数据服务对数据进行访问和操作。

大数据系统实际上就是数据的生命周期,即数据采集、存储、查找、分析和可视化的过程,大数据系统流程图,如图 1 所示,其中 Hadoop 是一种开源实现平台,其结构如图 2 所示。

数据分析与可视化内容整理

教育大数据的处理过程包括:数据采集,数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别、数据检索分类工具如百度和谷歌等搜索引擎,以及条形码技术等。数据分析,数据分析在方法论上需要解决的课题首先就在于 :如何透过多层次、多维度的数据集实现对于某一个人、某一件事或某一种社会状态的现实态势的聚焦,即真相再现;其中的难点就在于,我们需要洞察哪些维度是描述一个人、一件事以及一种社会状态存在状态的最为关键性的维度,并且这些维度之间的关联方式是怎样的等。其次,如何在时间序列上离散的、貌似各不相关的数据集合中,找到一种或多种与人的活动、事件的发展以及社会的运作有机联系的连续性数据的分析逻辑。其中的难点就在于,我们对于离散的、貌似各不相关的数据如何进行属性标签化的分类。不同类属的数据集的功能聚合模型 ( 用于特定的分析对象 ) 以及数据的标签化技术,是大数据分析的技术关键。

数据服务,目前,对外提供大数据服务的既有*、企业,也有科研机构,其提供的数据服务集中在数据查询 / 验证服务,面向企业的数据分析服务和数据集市。数据可视化,不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观地展示数据。数据可视化的前提是给定要进行可视化的数据,这些数据有可能是用户检索的结果,有可能是分析的结果。这样,大数据的可视化请求的处理流程可概述为,先执行大数据检索服务或者大数据分析服务,再将其结果数据输入到可视化型数据服务中,最后输出可视化脚本或包含可视化脚本的网页脚本。

教育大数据的应用模式

基于数据挖掘、数据分析和在线决策面板三大要素的教育大数据应用流程具体可划分为六个步骤,如图 3 所示,一是学生使用在线系统进行学习 ;二是系统收集和记录学生的在线学习行为,存入数据库 ;三是进行数据分析和处理、预测学生的学业表现 ;四是对预测和反馈结果进行可视化处理 ;五是提供适合学生个人的学习材料 ;六是教师、管理人员和开发人员适时给予学生指导和帮助。

数据分析与可视化内容整理

大数据教育领域应用实践

个性化课程分析,进行数据分析和处理、预测学生的学业表现,并向其推荐他们可能取得优秀学业表现的课程。系统首先获取某个学生以前( 高中或大学 ) 的学业表现,然后从已毕业学生的成绩库中找到与之成绩相似的学生,分析以前的成绩和待选课程表现之间的相关性、结合某专业的要求和学生能够完成的课程进行分析、利用这些信息预测学生未来在课程中可能取得的成绩,最后综合考量预测的学生成绩。

结束语:

作为新兴的交叉研究领域,计算教育学和教育数据挖掘目前正处于蓬勃发展的阶段。在线教育特别是 MOOC 的发展为这两个领域提供了大规模数据,也使得教育学领域一些经典分析方法及成果来面对 Anderson 之问: “More is Different ?”。大规模在线教育数据的分析处理迫切需要研究者提出新的学习模型、新的分析方法、新的工具平台以及新的教育学理论进行支持。目前国外已经出现了教育数据分析研究的专门会议、期刊乃至实验室。但总的来说,教育分析学和教育数据挖掘仍然是较新的研究领域,相对于其它数据挖掘的交叉领域(如生物信息学),面向在线教育数据的分析研究刚刚起步,存在很多问题与挑战,等待计算机科学家和教育学家携手应对。

国内相关研究者也应该尽早投身到该领域的研究中,为促进中国的在线教育发展,实现利用信息化手段扩大优质教育资源覆盖面以及大力促进教育公平的发展目标做出贡献。数据不仅可以帮助改善教育教学,在重大教育决策制定和教育改革方面,大数据更有用武之地。美国利用数据来诊断处在辍学危险期的学生、探索教育开支与学生学习成绩提升的关系、探索学生缺课与成绩的关系。如果有了充分的数据,便可以发掘更多的教师特征和学生成绩之间的关系,从而为挑选教师提供更好的参考。

基于人脸识别的商业大数据分析

互联网的发展,信息技术的日渐成熟,海量的数据中蕴藏着丰富的知识,一方面商家无法准确判断这些指数,另一方面客户无法发现自己的真正爱好,大数据分析技术可以发现其中知识。广告行业,同样存在可以挖掘的知识,如:什么样的广告在什么时段位置投放可以取得理想的效果,商品关注趋势,客户对商品的关注度分析,客户对推荐广告的满意度,客户喜欢的广告模式……考虑到以上市场需求,利用现有技术开发出这样一款产品不仅能够提高商家对市场的了解程度,而且可以有效地做出相应决策,帮助商家为客户提供更好的服务,同时可以帮助客户发现自己真正感兴趣的商品,帮助客户法向一些闪人问津的“暗信息”。

技术分析

本系统主要是帮助商家做出更加合理的决策为客户提供更有好多服务。我们借助于人脸识别技术,采集用户对商品的反馈信息。在各大商场的数字标牌广告机安装我们的图片采集器并上传到服务器,然后利用人脸分析技术分析出客户的年龄、性别、表情、姿势、关注时长、关注时间段、关注的广告信息……有了这些基础数据,现在可以在数据预处理阶段计算出商场各时段的客流量、客户性别年龄性格分布情况、客户位置分布、天气信息……数据处理阶段我们利用统计学习,机器学习算法对客户的各种特征数据和广告的特征数据建立各种关系模型,利用上面得出的数据学习出模型;对客户分类,对特定的类型客户学习出模型;基于上面学习出的模型在数字标牌广告机中投放广告;最后评估模型的好坏,反复学习,反复训练出更好的模型。

技术实现

本系统主要涉及两大技术难点:人脸分析、数据处理。人脸分析模块采用深度学习框架CNTK做人脸检测、人脸对齐,使用opencv图像处理。 数据分析模块采用spark框架中的机器学习子框架做模型训练、 分类、 关联分析、 频繁模式挖掘。同时为了提高计算能力,我们将整个系统移植到hadoop平台并采用spark作为计算框架。

总结

经过这么长时间的努力,我们学习到了许多东西, 有工程实践方面的,也有学习方法上面的,还有团队合作方面的……这些宝贵的东西才是值得我们学习铭记。同样也折射出相当多的问题,系统运行速度方面、系统安全方面、信息采集、算法优劣、等等。这些小方面的问题累积起来最终都会对我们系统的整体性能造成极大的影响,因此今后在开发的过程中在考虑将现有技术使用到系统中的时候不能总是追求技术的新,要从整体出发,综合考虑,在做出详细的计划,最后一步一步的实现。

数据分析与可视化内容整理