C++中文分词源码，分词的方法

时间：2011-12-03 15:03:56

【文件属性】：

文件名称：C++中文分词源码，分词的方法

文件大小：327KB

文件格式：RAR

更新时间：2011-12-03 15:03:56

C++分词源码，中文分词

西方语言在语句（或从句）内词汇之间存在分割符（空格），而汉语的词汇在语句中是连续排列的。因此，汉语词汇的切分（分词）在中文信息处理的许多应用领域，如机器翻译、文献检索、文献分类、文献过滤、以及词频统计等，是非常重要的第一步。自动分词是基于字符串匹配的原理进行的。迄今为止，已经有许多文献对各种分词方法进行探讨，其着重点或为分词的速度方面，或为分词的精度方面以及分词的规范。本文主要探讨分词的速度问题，通过实验对比和理论分析，说明我们所提出的算法是有效的。目前人们所提出的分词方法，在考虑效率问题时，通常在词典的组织方面进行某种调整，以适应相应的算法，如最大匹配法、最小匹配法、逐词遍历法、以及最佳匹配法等。这些方法中，或将词典按词条长度排序或按词频排序，其目的在于协调算法与数据结构，使之效率最高。客观地说，它们都在一定程度上提高了分词的效率。本文所介绍的是基于词典的最大向前匹配方法。而在数据结构方面，我们则是将词典组织成自动机形式。

立即下载

【文件预览】：
WordSegment
----dictiory.txt(766KB)
----WordSegment.cpp(6KB)
----sou.txt(385B)
----data.txt(625B)

网友评论

好东西值得借鉴
可以的2333
研究学习一下，还不错，值得借鉴
不错不错，可以用，谢谢啦
头文件怎么处理的？
学习学习。
不错，可以借鉴一下
十分强大很有用的
很好很强大，可以参考学习
不错，可以借鉴一下
还可以，稍微学习下~
挺有参考价值的
应该还不错，参考参考
不能运行，唉
还没运行，但是代码还是比较清晰的，简单的最大向匹配中文分词算法，比较依赖词典
可以参考学习
我用DEVC++编译不通过
运行不了啊，怎么解决的那个头文件问题，知道的麻烦给说下，谢谢了
很好很强大，可以参考学习
给同学下的，对于分词有点用
写了一个分词，被嘲笑了
不错，适合思考
不管了，能交上去就行，，哈哈
不怎么好用，与我想要的不一样
可以用，但是更改词库会崩溃
能运行，可以作为参考。
对于我来说还是挺有用的
可以运行，给了我挺大帮助
一看就是楼主自己写的，挺好的，但只能基于小的语料分词。
从效果上来看十分不错！发现有一点小bug就是文本中遇到”；“时分词结果会出现乱码，不过应该是个小问题。值得学习一下，感谢分享！

秒客网

C++中文分词源码，分词的方法

网友评论

相关文章