作业要求
- 统计文件的字符数
- 统计文件的单词总数
- 统计文件的总行数
- 统计文件中各单词的出现次数
- 对给定文件夹及其递归子文件夹下的所有文件进行统计
- 统计两个单词(词组)在一起的频率,输出频率最高的前10个。
- 在Linux系统下,进行性能分析,过程写到blog中(附加题)
实现的大致思路
1.首先实现单个文件夹的各种操作:
1)统计字符总数很简单,设置一个计数器,每读入一个字符,计数器加一
2)单词总数的统计类似于字符总数的统计,只是代码麻烦一些
3)总行数=换行符+1
4)单词出现次数的统计——数组or哈希表?
5)词组的频率统计——也用哈希表?
2.实现多个文件的操作:
将文件夹下的所有文件依次打开,然后重复1的操作直到遍历完所有的文件即可。