文件名称:segmentor:基于HMM的中文分割器(中文标记器)
文件大小:14KB
文件格式:ZIP
更新时间:2024-05-21 23:43:38
nlp hmm tokenizer Java
中文分割器(令牌生成器) 由于单词是在各种复杂句子中表达含义的最小单位。 在使用不同语言进行自然语言处理时,从一开始就提取句子中的单词始终是必不可少的任务。 与英语中的单词自然会用空格分隔的英语不同,中文在每个两个字符之间没有间隔,因此中文分割器需要识别连续字符的正确组合。 由于字符的组合是有道理的,因此在先前几个字符出现的情况下,必须对单个字符的出现进行统计分析。 因此,解决方案的基本思想是考虑组合遵循马尔可夫随机场。 存在两个重大挑战,即模糊性和非挥发性。 为避免歧义,中文中的常见情况是无论您拆分还是组合相应的字符,它们都是个别有意义的,但句法分割器应仅选择一个全局可理解的字符。 如“组合成分”,正确的结果应该是“组合/成/分子”,但是“组合”,“合成”,“分子”都是中文的有效词。 就像在两句话“熟悉他的人才能够了解他的想法”和“公司在寻找人才加入我们的团队”中一样,“人才”也需要
【文件预览】:
segmentor-master
----pom.xml(1KB)
----src()
--------main()
----.gitignore(65B)
----README.md(6KB)