文件名称:word2vecjava源码-SentenceSim:中文短文句相似读
文件大小:46.33MB
文件格式:ZIP
更新时间:2024-06-25 15:59:12
系统开源
word2vec java源码 SentenceSim 中文短文句相似度的几种方法,主要包括基于知网的,onehot向量模型,基于word2vec,基于哈工大sdp及其融合算法,LSTM算法 中文问句相似度计算在问答系统中有着极其重要的作用,在人工智能还未能实现自动答案产出的现阶段,利用已有的问题-答案集,通过短问句的相似度计算方法,发现和用户查询意图最近接的问句,是问答系统研究的一个重要方向。 当前版本 v1.1 主要内容 给出了基于知网、传统词向量、word2vec以及语义依存分析的短问句相似度算法,并根据实验结果分析了不同方法的优缺点。基于传统词向量的one-hot向量表示方法没有考虑问句中的语义信息,在计算效果上存在一定局限性,由于知网专业领域词汇的收录不全,也不能在此数据集上取得很好效果。通过word2vec方法训练中文wiki数据以及结合哈工大LTP平台的语义依存分析,以及结合专业领域的词汇表,能够取得不错的效果。使用Stanford LSTM开源代码,实现在中文文本上的相似读计算,取得比word2vec更好的效果 代码应用 Sensim.java 是整个项目的入口,在ma
【文件预览】:
SentenceSim-master
----library()
--------无标题文档~(0B)
--------userLibrary()
--------default.dic.copy(2KB)
--------ambiguity.dic~(31KB)
--------无标题文档(1.65MB)
--------default.dic~(2KB)
----src()
--------wordsimilarity()
--------ica()
----README.md(3KB)
----dict()
--------glossary.dat.utf8(3.96MB)
--------WHOLE.DAT.utf8(79KB)
--------WHOLE.DAT(76KB)
--------semdict.dat(10KB)
--------glossary.dat(3.56MB)
--------glossar.dat.utf8(3.96MB)
----lib()
--------ansj_seg-2.0.8.jar(40.03MB)
--------nlp-lang-0.3.jar(3.58MB)
----treelstm()
--------sentiment()
--------layers()
--------models()
--------util()
--------relatedness()
--------scripts()
--------run.sh(273B)
--------lib()
--------init.lua(1KB)
--------eval()