日常算法实践

时间:2024-03-03 05:05:41
【文件属性】:

文件名称:日常算法实践

文件大小:4KB

文件格式:ZIP

更新时间:2024-03-03 05:05:41

日常算法实践 02-06-2021:给定100G的URL磁盘数据,使用最多1G内存,统计出现频率最高的前K个URL 新建约100个文件,利用哈希(URL)%100的值,将每条URL映射到对应文件下,保证同一URL本质全部映射到同一文件下。 预先分布比较均匀,则每个文件大小大约1G,可在内存中操作,在内存中简单地统计词频即可。 对每个文件都取出相应的topK的K个根据count降序排列,形成类似一个数组,将100个文件的写入同一个文件。 对100个K对进行。得到K个即可*甚至100个K对不能都放进内存:取每个片段的一段插入内存,在K路归并步骤中,在这一段已完全被堆吐出时,再向堆中插入这一段的下一个< URL>即可。 02-07-2021:10亿个数中如何高效地找到最大的一个数以及最大的第K个数 基本同上。假设一个数为几十个字节大小,十亿个数为几十GB级,


【文件预览】:
Daily-Algorithm-Practice-main
----README.md(10KB)

网友评论