1. 什么是数据
首先介绍下 DIKW 框架
DIKW体系是关于数据,信息,知识以及智慧的体系
所以说数据的定义就是收集数据的名称以及属性(attribute). (就像数据库一样) 属性是 一个物体的特点(比如人眼睛的颜色)
2. 属性值
属性值是数字或者符号赋值给属性
3. 属性值(attribute value)跟属性区别
同一个属性可以有不同的属性值。例如:高度可以用英尺或公尺
不同的属性可以有相同的属性值。例如:证件号跟年龄都是数字。但是属性特征值(properties of attribute values)却不一样:证件号没有限制。 但是年龄有一个范围区间
4. 属性的种类
a. 名词(nominal):证件号,眼睛颜色
b. 序号(ordinal):需要按顺序的{0.3,1,5}
c. 间隔(interval):日历
d. 比率(ratio):数之间的乘除都可以
5. 离散属性与连续属性
a. 离散属性:是无限可数的或者有限的值,经常用或不用整数变量表示。(顾客数量是无限增长的,但事实上实际的值集合是可数的)
b. 连续属性:如果一个属性不是离散的,侧位连续的。用实数作为属性值。然而实数只能用有限的数字来衡量。连续属性用浮点变量表示。浮点型变量指的就是实数变量(存放可以带小数的数据的变量)。
6. 什么是大数据
大数据就是许多数据集的集合它非常大而且复杂,以至于传统的数据运算不能驾驭。
7. 大数据的3个V