1️⃣数据对象及其属性
- 对象:数据集的组成单元,代表一个实体
- 属性:对实体(对象)的描述
属性类型 含义 举例 描述 二元 属性值域只有 True/False \text{True/False} True/False 诊断结果 N/A \text{N/A} N/A 枚举 属性值域由无序/不定量符号组成 职业类型 众数 序数 属性值间的序有意义,但前后序是定性的 军衔级别 众数/中位数 数值 可用整数或实数度量 好多 众数/中位数/平均数
2️⃣数据基本统计描述
- 传统的:算术/加权平均,中位数,众数(模),极差,标准差/方差
- 百分位:第 k k k个百分位数 x k x_k xk表示 k % k\% k%的数据低于 x k x_k xk,如 Q 1 Q_1 Q1/中位数/ Q 3 Q_3 Q3(即 25 / 50 / 75 25/50/75 25/50/75百分位数)
3️⃣数据基本图形描述
- 传统的:直方图,分位数图,散点图
-
Box Plot
\text{Box Plot}
Box Plot
- 四分位极差: IQR= Q 3 − Q 1 \text{IQR=}Q_3-Q_1 IQR=Q3−Q1
- 孤立点( Outlier \text{Outlier} Outlier):在 Q 1 − 1.5 IQR Q_1-1.5\text{IQR} Q1−1.5IQR之下或者 Q 1 + 1.5 IQR Q_1\text{+}1.5\text{IQR} Q1+1.5IQR之上
- 盒图要素:上下端在 Q 1 / Q 3 {Q_1/Q_3} Q1/Q3上,中位数处划线,胡须延伸到最大最小观测值
4️⃣数据相关性描述: Pearson \text{Pearson} Pearson相关系数 r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 \displaystyle{}r=\cfrac{\displaystyle{}\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\displaystyle{}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} \sqrt{\displaystyle{}\sum_{i=1}^n\left(y_i-\bar{y}\right)^2}} r=i=1∑n(xi−xˉ)2i=1∑n(yi−yˉ)2i=1∑n(xi−xˉ)(yi−yˉ)