Term-Frequency-Inverse-Document-Frequency

时间:2024-04-19 16:15:01
【文件属性】:

文件名称:Term-Frequency-Inverse-Document-Frequency

文件大小:28KB

文件格式:ZIP

更新时间:2024-04-19 16:15:01

MATLAB

术语频率-反文档频率(tf-idf) docdistances.m是一个MATLAB程序,用于计算两个文档之间的距离。 该脚本将计算6个文档之间的距离:3个文档是童话故事的提要(红帽,公主和豌豆和灰姑娘); 其他3个文档是与蛋白质功能预测有关的论文的摘要(标识为CAFA1,CAFA2和CAFA3)。 步骤0:形成语料库。 语料库是所有文档中唯一词的集合。 步骤1:计算字词频率(TF) 测量术语(单词)在文档中出现的次数 第2步:计算反向文档频率(IDF) IDF = 1 + log(文档总数/包含该术语的文档数) 注意:以e为底的日志 步骤3:TF * IDF 步骤4:计算余弦距离 余弦距离c = 1-cos(tf-idf向量之间的角度)


【文件预览】:
Term-Frequency-Inverse-Document-Frequency-main
----PrincessPea.txt(2KB)
----docdistances.m(1KB)
----Cinderella.txt(4KB)
----CAFA3.txt(2KB)
----RedRidingHood.txt(2KB)
----CAFA1.txt(895B)
----README.md(888B)
----CAFA2.txt(844B)
----tf-idf.png(24KB)

网友评论