文件名称:一个纯PHP的中文关键字自动提取工具
文件大小:485KB
文件格式:ZIP
更新时间:2015-09-27 02:43:56
PHP 中文关键字 提取工具
因为,提取关键字,肯定要涉及分词,现在的分词算法,最好的估计是统计算法,但是实现稍微复杂一点,用PHP的话,性能往往也不够。 我翻了一下最简单的分词,好像就是向前最大匹配。而且如果字典好的话,据说准确率还挺高的。当然,我没有什么好字典,从中科院的分词软件里面,拿了一本字典。大概有10万的词汇量。当然,你可以用其他的字典,但是一定要有词频。 http://www.cnblogs.com/niniwzw/archive/2010/12/06/1897734.html
【文件预览】:
cws
----query.php(284B)
----DictQuery.php(4KB)
----data()
--------coreDict.dct(1.51MB)
----jsonp.php(630B)
----Dict.php(4KB)
----build_find_dict.php(172B)
----WordItem.php(530B)
----Segment.php(6KB)
----post.php(9KB)
----MFile.php(1KB)
----WordType.php(4KB)
----test.php(3KB)