刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词

时间:2013-09-19 15:23:20
【文件属性】:

文件名称:刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词

文件大小:2.2MB

文件格式:RAR

更新时间:2013-09-19 15:23:20

刨丁解羊 中文 分词器 网络蜘蛛 网络爬虫

刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。DLL及OCX调用请联系QQ(601069289)。


【文件预览】:
刨丁解羊中文分词器
----dic()
--------key.dat(3.05MB)
--------dic.txt(179B)
--------m.dat(3.43MB)
----word.exe(56KB)
----软件说明.txt(350B)

网友评论

  • 有一些词库,但是对我没啥用。下载之前一定要看好这是做什么用的。
  • 不是很好,一般
  • 老资料了,用途不是很大
  • 没源代码,没什么实际用途!不过分词分的不错!求公开代码!
  • 不是很实用