文件名称:数据集成中冗余数据处理-数据预处理
文件大小:1.12MB
文件格式:PPT
更新时间:2024-05-13 18:12:47
数据预处理
数据集成中冗余数据处理 冗余数据Redundant data (集成多个数据库时出现) 目标识别:同一个属性在不同的数据库中有不同的名称 衍生数据:一个属性值可由其他表的属性推导出, e.g.,年收入 相关分析 correlation analysis /协方差分析covariance analysis 可用于检测冗余数据 小心的集成多个来源的数据可以帮助降低和避免结果数据集中的冗余和不一致,提高数据挖掘的速度和质量