文件名称:日常算法实践
文件大小:4KB
文件格式:ZIP
更新时间:2024-03-03 05:05:41
日常算法实践
02-06-2021:给定100G的URL磁盘数据,使用最多1G内存,统计出现频率最高的前K个URL
新建约100个文件,利用哈希(URL)%100的值,将每条URL映射到对应文件下,保证同一URL本质全部映射到同一文件下。
预先分布比较均匀,则每个文件大小大约1G,可在内存中操作,在内存中简单地统计词频即可。
对每个文件都取出相应的topK的K个
【文件预览】:
Daily-Algorithm-Practice-main
----README.md(10KB)