文件名称:文档数据-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:27
RapidMiner
(1) 连续属性 对于连续属性,要先对各属性值进行零-均值规范,再进行距离的计算。K-Means 聚类 算法中,一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。 度量样本之间的相似性最常用的是欧几里得距离、曼哈顿距离和闵可夫斯基距离;样 本与簇之间的距离可以用样本到簇中心的距离 ( , )id e x ;簇与簇之间的距离可以用簇中心的 距离 ( , )i jd e e 。 用 p 个属性来表示 n 个样本的数据矩阵如下: 11 1 1 p n n p x x x x 欧几里得距离 2 2 2 1 1 2 2( , ) ( ) +( ) + +( )i j i j ip jpd i j x x x x x x (9-1) 曼哈顿距离 1 1 2 2( , ) | |+ | |+ +| |i j i j ip jpd i j x x x x x x (9-2) 闵可夫斯基距离 1 1 2 2( , ) |( |) + (| |) + +(| |) q q qq i j i j ip jpd i j x x x x x x (9-3) q 为正整数, =1q 时即为曼哈顿距离; =2q 时即为欧几里得距离。 (2) 文档数据 对于文档数据使用余弦相似性度量,先将文档数据整理成文档—词矩阵格式,如表 9-3。 表 9-3 文档—词矩阵 lost win team score music happy sad … coach 文档一 14 2 8 0 8 7 10 … 6 文档二 1 13 3 4 1 16 4 … 7 文档三 9 6 7 7 3 14 8 … 5 两个文档之间的相似度的计算公式为: ( , ) cos( , ) | || | i j d i j i j i j (9-4)