subsample:有效地从大量文本文件中随机采样行下载

【文件属性】：

文件名称：subsample:有效地从大量文本文件中随机采样行

文件大小：6KB

文件格式：ZIP

更新时间：2024-07-05 02:34:17

一个小型的 Unix-y 程序，可以在不替换的情况下从文件中提高子样本行。概要 subsample -n 1000 in_file [in_file2...] > out_file 这将生成一个输出文件，其中 1000 行均匀采样而无需从连接的输入文件中替换。尽管所选行是随机的，但它们的顺序被保留。该程序的目标是从巨大的输入文件中抽取大量样本。与水库采样或更简单的方法不同，它避免将输入的任何重要部分保留在内存中，只需要 m/8 字节。例如，要从具有 1 亿行的文件中进行采样，无论输入文件的字节大小如何，您都需要少于 13MB。用法 subsample [OPTIONS] [FILE...] 从一个或多个常规文件的串联中采样行并打印到标准输出。选项 -n N ：要采样的块数。（默认值：1） -s SEED, --seed=SEED ：种子随机数生成器。默认情况下使用

立即下载

【文件预览】：
subsample-master
----Makefile(119B)
----subsample.c(14KB)
----README.md(1KB)

秒客网

subsample:有效地从大量文本文件中随机采样行

网友评论

相关文章