idf词频统计小巧中文分词词库

时间:2012-06-20 09:30:06
【文件属性】:

文件名称:idf词频统计小巧中文分词词库

文件大小:772KB

文件格式:RAR

更新时间:2012-06-20 09:30:06

idf词频统计小巧中文分词词库

idf词频统计小巧中文分词词库 idf词频统计小巧中文分词词库


【文件预览】:
dict.txt
readme.txt

网友评论

  • 以下只是猜测,仅供参考,若有错误,请指正~ 是这样的,下载过后认为 中间两个数据比较诡异;考虑到计算机语言在表示多位小数时存在一定的难度所以猜测作者用TF和IDF两个数值的倒数分别填充这两个值,例如以下词条: 整洁 14.20 6.29 1073741824 这个条目中TF值是1/14.20=0.0704225.....IDF值是1/6.29=0.1589825.... 此时IDF的对数值即为0.1589825....,真数为1.4420572...... 看起来和其他样例中的TF-IDF的数值比较相似 所以只需要把第2个数值的倒数乘上第三个数值的倒数,就是该词汇的TF-IDF值了……
  • 词量太小,很多都找不到
  • 这个词汇量太小,对于中文处理是远不够的呢,
  • 做一些入门的实验可以,工程的应用性不强,还有数据的各参数没解释清楚,只知道最后的是词性,中间两个参数是什么不知道,TF?IDF?
  • 比较小的实现而已
  • 9万词,而且不通用。
  • 可以作参考 但是词库量有点小
  • 词汇量不满意。
  • 小词汇库,做试验很合适
  • 词汇量也太少了,只能适合小型的文本处理内容
  • 太小了,不符合我的需求
  • 这只是个词库,不是实现tfidf的算法,不过还是不错,值得推荐。
  • 这个不太适合,词太少了。最起码也要30万吧!不过挺适合小型的文档集的
  • 这个只适合较小的文本内容,对于规模较大的数据还需改进。
  • 这个只适合较小的文本内容,对于规模较大的数据还需改进。