【文件属性】:
文件名称:为什么要预处理数据?-浙大关于大数据的讲解
文件大小:814KB
文件格式:PPT
更新时间:2021-04-25 19:39:12
大数据算法
为什么要预处理数据?
现实世界的数据是“肮脏的”
不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据
含噪声的:包含错误或者“孤立点”
不一致的:在编码或者命名上存在差异
没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成