文档数据-tinyxml指南[中文]下载

【文件属性】：

文件名称：文档数据-tinyxml指南[中文]

文件大小：6.46MB

文件格式：PDF

更新时间：2024-07-04 16:39:27

RapidMiner

（1）连续属性对于连续属性，要先对各属性值进行零-均值规范，再进行距离的计算。K-Means 聚类算法中，一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。度量样本之间的相似性最常用的是欧几里得距离、曼哈顿距离和闵可夫斯基距离；样本与簇之间的距离可以用样本到簇中心的距离 ( , )id e x ；簇与簇之间的距离可以用簇中心的距离 ( , )i jd e e 。用 p 个属性来表示 n 个样本的数据矩阵如下： 11 1 1 p n n p x x x x                欧几里得距离 2 2 2 1 1 2 2( , ) ( ) +( ) + +( )i j i j ip jpd i j x x x x x x    (9-1) 曼哈顿距离 1 1 2 2( , ) | |+ | |+ +| |i j i j ip jpd i j x x x x x x    (9-2) 闵可夫斯基距离 1 1 2 2( , ) |( |) + (| |) + +(| |) q q qq i j i j ip jpd i j x x x x x x    (9-3) q 为正整数， =1q 时即为曼哈顿距离； =2q 时即为欧几里得距离。（2）文档数据对于文档数据使用余弦相似性度量，先将文档数据整理成文档—词矩阵格式，如表 9-3。表 9-3 文档—词矩阵 lost win team score music happy sad … coach 文档一 14 2 8 0 8 7 10 … 6 文档二 1 13 3 4 1 16 4 … 7 文档三 9 6 7 7 3 14 8 … 5 两个文档之间的相似度的计算公式为： ( , ) cos( , ) | || | i j d i j i j i j        (9-4)

立即下载

秒客网

文档数据-tinyxml指南[中文]

网友评论

相关文章