文件名称:刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词
文件大小:2.2MB
文件格式:RAR
更新时间:2013-09-19 15:23:20
刨丁解羊 中文 分词器 网络蜘蛛 网络爬虫
刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。DLL及OCX调用请联系QQ(601069289)。
【文件预览】:
刨丁解羊中文分词器
----dic()
--------key.dat(3.05MB)
--------dic.txt(179B)
--------m.dat(3.43MB)
----word.exe(56KB)
----软件说明.txt(350B)