笔记分享: 西安交通大学COMP551705数据仓库与数据挖掘——01. 导论与数据预处理

时间:2024-11-18 07:07:22

1️⃣数据对象及其属性

  1. 对象:数据集的组成单元,代表一个实体
  2. 属性:对实体(对象)的描述
    属性类型 含义 举例 描述
    二元 属性值域只有 True/False \text{True/False} True/False 诊断结果 N/A \text{N/A} N/A
    枚举 属性值域由无序/不定量符号组成 职业类型 众数
    序数 属性值间的序有意义,但前后序是定性的 军衔级别 众数/中位数
    数值 可用整数或实数度量 好多 众数/中位数/平均数

2️⃣数据基本统计描述

  1. 传统的:算术/加权平均,中位数,众数(模),极差,标准差/方差
  2. 百分位:第 k k k个百分位数 x k x_k xk表示 k % k\% k%的数据低于 x k x_k xk,如 Q 1 Q_1 Q1/中位数/ Q 3 Q_3 Q3(即 25 / 50 / 75 25/50/75 25/50/75百分位数)

3️⃣数据基本图形描述

  1. 传统的:直方图,分位数图,散点图
  2. Box Plot \text{Box Plot} Box Plot
    image-20241112232606017
    • 四分位极差: IQR= Q 3 − Q 1 \text{IQR=}Q_3-Q_1 IQR=Q3Q1
    • 孤立点( Outlier \text{Outlier} Outlier):在 Q 1 − 1.5 IQR Q_1-1.5\text{IQR} Q11.5IQR之下或者 Q 1 + 1.5 IQR Q_1\text{+}1.5\text{IQR} Q1+1.5IQR之上
    • 盒图要素:上下端在 Q 1 / Q 3 {Q_1/Q_3} Q1/Q3上,中位数处划线,胡须延伸到最大最小观测值

4️⃣数据相关性描述: Pearson \text{Pearson} Pearson相关系数 r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 \displaystyle{}r=\cfrac{\displaystyle{}\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\displaystyle{}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} \sqrt{\displaystyle{}\sum_{i=1}^n\left(y_i-\bar{y}\right)^2}} r=i=1n(xixˉ)2 i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ)