文件名称:StatisticWords:统计某目录下的单词出现频率
文件大小:6KB
文件格式:ZIP
更新时间:2024-05-21 06:56:56
java statistics bigdata Java
介绍 统计某目录下的所有文本文件的单词出现频率。支持大驼峰和小驼峰命名的单词组合拆分,例如:void setName(name);或者void SetName(Name);将被分解成4个单词。只支持英文单词,一个字母的单词将忽略。可自行定义排名前几的数据。可自定义扫描的文件类型。 测试结果 在大小写敏感模式下,统计某Java源码目录的结果 排名 单词 出现频率 1 the 311620 2 if 160965 3 int 147354 4 to 124752 5 ud 122707 6 return 120929 7 is 103377 8 of 97253 9 public 82258 10 code 80901 11 get 80374 12 in 78338 13 this 72584 14 for 66639 15 void 66632 16 const 65662 17 Stri
【文件预览】:
StatisticWords-master
----.project(373B)
----src()
--------test()
--------main()
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
--------org.eclipse.core.resources.prefs(55B)
----README.md(3KB)
----.classpath(295B)
----bin()
--------.gitignore(72B)