文件名称:semantics:研究词之间的语义相似度
文件大小:333KB
文件格式:ZIP
更新时间:2024-07-13 17:34:43
Java
语义 多年来,词间语义相似度的研究一直是自然语言处理和信息检索的一部分。 语义相似性是计算语言学和人工智能领域的各种应用中的一个通用问题,无论是在学术界还是在工业界。 示例包括词义消歧、单词拼写错误的检测和纠正等。 要确定两个词在语义上是否相似,重要的是要知道词之间的语义关系。 例如,可以认为马和牛这两个词在语义上相似,因为马和牛都是农业中有用的动物。 类似地,马和汽车在语义上可以被认为是相似的,因为汽车和历史上的马都是用于运输的。 该项目旨在使用Pearson 相关系数方法找到语义相似的单词。 涉及的步骤是: 输入数据的预处理 词干 去除停用词 消除高频/低频词 计算每对唯一词之间的 Pearson 相关系数 (PCC)![Pearson 相关系数] ( "Pearson 相关系数") 找到具有最大 PCC 的配对。 将此对作为单个词添加到频率矩阵的末尾。 从频率矩阵中消
【文件预览】:
semantics-master
----.coveralls.yml(36B)
----output()
--------5docs.txt(643B)
--------4docs.txt(481B)
--------Pattern Strings(1012B)
--------7docs.txt(737B)
--------3docs.txt(1KB)
--------8docs.txt(887B)
--------1docs.txt(1KB)
--------6docs.txt(866B)
--------2docs.txt(826B)
--------9docs.txt(583B)
--------10docs.txt(547B)
----src()
--------semantics()
--------tests()
----input()
--------Docs()
--------MYSTWORD.TXT(5KB)
----deps()
--------junit.jar(283KB)
--------hamcrest-core-1.3.jar(44KB)
----.travis.yml(15B)
----README.md(2KB)
----build.xml(1KB)
----docs()
--------Pearson.png(17KB)
----.gitignore(7B)