Java词频统计算法(使用单词树)

时间:2013-07-23 08:45:11
【文件属性】:

文件名称:Java词频统计算法(使用单词树)

文件大小:6KB

文件格式:TXT

更新时间:2013-07-23 08:45:11

Java 词频统计

用Java实现的词频统计,代码。为了统计词汇出现频率,最简单直接的做法是另外建一个Map:key是单词,value是次数。将文章从头读到尾,读到一个单词就到Map里查一下,如果查到了则次数加一,没查到则往Map里一扔。这样做虽然代码写起来简单,但性能却非常差。首先查询Map的代价是O(logn),假设文章的字母数为m,则整个统计程序的时间复杂度为O(mlogn)不说,如果要拿高频词可能还需要对统计结果进行排序。即便对结构上进行优化性能仍然不高。


网友评论

  • 完全没有用、直接复制粘贴过来的。而且不能用。别人的博客地址。http://blog.csdn.net/chengyingzhilian/article/details/8197987
  • goog,可以解决我要解决的问题
  • 程序可运行 东西好 值得研究
  • 非常不错的算法,都用上了
  • 很好,谢谢,理解起来容易多了
  • 嗯 不错,受用了。私下里使用了。
  • 程序比较绕,不过还是可以借鉴一下的。
  • 东西还行,有一点参考价值。
  • 程序不错,代码和叙述比较完整也比较清晰
  • 这个应该从别人的博客转载过来的,不知道谁是原作者,而且十分有点黑,贴上博客链接http://blog.csdn.net/chengyingzhilian/article/details/8197987
  • 挺好的。虽然是java的,改成c#的难度也不大。
  • 居然是文本,我还以为是实例呢
  • 不错的算法,代码和叙述比较完整也比较清晰。 不足之处在于原文中有配图,而转成txt后配图就无法展示了,这对算法理解多少有些影响。
  • 不错的算法,代码和叙述比较完整也比较清晰。 不足之处在于原文中有配图,而转成txt后配图就无法展示了,这对算法理解多少有些影响。