文件名称:new-words-algorithm:文本新词发现算法优化案例
文件大小:457KB
文件格式:ZIP
更新时间:2024-05-31 15:53:23
Java
new-words-algorithm 文本网络新词发现算法的优化案例 一、代码结构 优化前的文本网络新词发现算法位于包:com.baitengsoft.bigdata.nwa.algm1 优化后的文本网络新词发现算法位于包:com.baitengsoft.bigdata.nwa.algm2 二、文本网络新词发现算法介绍 文本网络由字符节点和连线(有向)组成。 字符节点表示在文本内容中出现过的一个字符,重复出现的字符在网络中只存在一个节点。 连线按照文本内容中字符与字符之间出现的先后顺序,连接两个字符节点。 字符节点又包括了若干接入点和接出点,用于关联连线的接入端和接出端。 每个接入点表示一组来自相同字符节点连线的接入端。 每个接出点表示一组去向相同字符节点连线的接出端。 通过预定义模型可以计算出文本网络中每条连线的权重,然后可以根据连线权重来判断连线两端字符节点组成词组的可能性, 把可能
【文件预览】:
new-words-algorithm-master
----src()
--------test()
--------main()
----images()
--------rule3.png(97KB)
--------inpoint-weight.png(19KB)
--------text-network-section.png(40KB)
--------rule2.png(52KB)
--------rule1.png(84KB)
--------outpoint-weight.png(20KB)
--------line-weight.png(10KB)
----README.md(3KB)
----pom.xml(606B)
----.editorconfig(252B)
----.gitignore(1KB)