文件名称:中分分词与分词性能评测代码及详细设计文档
文件大小:4.03MB
文件格式:ZIP
更新时间:2017-06-29 08:56:47
中文分词 自然语言 正向最大匹配 逆向最大匹配 分词性能评测
通过本资源了解中文分词的意义,在实现正向、逆向最大匹配分词算法的过程中,加深对自然语言理解原理的探讨兴趣。本资源内含详细的代码设计分档、测试语料、源代码以及多个自己制作的语料库词典,分别实现了正、逆向最大匹配中文分词,并且设计了算法对分词效果进行了详细的评测,可以对大作业乃至毕业设计提供巨大的帮助.
【文件预览】:
雨叶希扬
----中文分词评测测试语料(山西大学提供)()
--------训练语料(528250词,ANSI格式).txt(2.64MB)
--------训练语料(528250词,Unicode格式).txt(3.64MB)
--------测试语料(ANSI格式).txt(367KB)
--------测试语料答案(ANSI格式).txt(582KB)
----WordAnalyse.cpp(2KB)
----雨叶希扬--中文分词系统实验报告书.pdf(477KB)
----ceping_forward.txt(603KB)
----ceping.txt(367KB)
----dic000.txt(688KB)
----macro.h(561B)
----ceping_reverse.txt(488KB)
----备注.txt(268B)
----dic002.txt(593KB)
----关于正逆向难以两全的一组小测试,是下一步重点解决的问题()
--------test1_reverse.txt(37B)
--------test1_forward.txt(44B)
--------test1.txt(28B)
----dic001.txt(268KB)
----wordDevide.cpp(10KB)
----correct.txt(582KB)