subsample:有效地从大量文本文件中随机采样行

时间:2024-07-05 02:34:17
【文件属性】:

文件名称:subsample:有效地从大量文本文件中随机采样行

文件大小:6KB

文件格式:ZIP

更新时间:2024-07-05 02:34:17

C

一个小型的 Unix-y 程序,可以在不替换的情况下从文件中提高子样本行。 概要 subsample -n 1000 in_file [in_file2...] > out_file 这将生成一个输出文件,其中 1000 行均匀采样而无需从连接的输入文件中替换。 尽管所选行是随机的,但它们的顺序被保留。 该程序的目标是从巨大的输入文件中抽取大量样本。 与水库采样或更简单的方法不同,它避免将输入的任何重要部分保留在内存中,只需要 m/8 字节。 例如,要从具有 1 亿行的文件中进行采样,无论输入文件的字节大小如何,您都需要少于 13MB。 用法 subsample [OPTIONS] [FILE...] 从一个或多个常规文件的串联中采样行并打印到标准输出。 选项 -n N :要采样的块数。 (默认值:1) -s SEED, --seed=SEED :种子随机数生成器。 默认情况下使用


【文件预览】:
subsample-master
----Makefile(119B)
----subsample.c(14KB)
----README.md(1KB)

网友评论