文件名称:关联强度-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:25
RapidMiner
图 8.7 关联强度 8.2.7 部署 请想一想 Avg_Age 和 Temperature 之间的关联系数: -0.673。 我们看到这被视为比 较强的负关联。 在家庭居住人员的年龄增加时,户外平均温度在下降;并且在温度上升时, 居住人员的年龄在下降。 但家庭居住人员的平均年龄会对家庭年均户外温度有影响吗? 当 然不会。 如果会有影响,我们只要让不同年龄的人搬入或搬出家庭,即可控制温度。 这当 然非常愚蠢。 尽管统计表明,在我们的数据集中,这两个属性之间存在一定的关联,但没 有合理的理由表明为什么一个属性的变动会导致另一个属性的变动。 这一关系可能纯属巧 合,但如果不是,肯定会有一些我们的模型无法提供的其他解释。 在进行所有数据挖掘部 署决策时,必须认识到并接受此类局限。 对关联的另一种错误解读是关联是百分比,即如果两个属性之间的关联系数为 0.776, 就表示这两个属性之间的变化相似性为 77.6%。 这是不正确的。 尽管关联系数确实能够 表明属性之间的变化相似性,但用于计算关联系数的基本数学公式只是用于衡量属性之间的 关联强度(按与 1 或 -1 的接近程度来表示), 未计算也未打算计算任何百分比。 了解了这些解读参数后,Sarah 可以进行多项工作,以便根据我们的模型采取行动。 其 中的一些选项可能包括: 去掉 Num_Occupants 属性。 尽管家庭中的居住人数可能从逻辑上看起来像是一个