subsample:从 csv、tsv 或其他基于行的数据文件中随机采样行

时间:2024-07-07 04:13:29
【文件属性】:

文件名称:subsample:从 csv、tsv 或其他基于行的数据文件中随机采样行

文件大小:43KB

文件格式:ZIP

更新时间:2024-07-07 04:13:29

Python

子样本 subsample是一个命令行工具,用于从以换行符分隔的大型数据集(通常是类似 CSV 的文件)中采样数据。 安装 subsample与pip分发。 安装pip ,只需运行: > pip install subsample 并且subsample将安装到您的 Python 环境中。 用法 subsample需要一个参数,即输入文件。 如果输入文件是- ,则将从标准输入读取数据(在这种情况下,只能使用库和近似算法)。 简单示例 要从文件big_data.csv中获取大小为 1000 的subsample按如下方式运行subsample : > subsample -n 1000 big_data.csv 这将从文件中随机打印 1000 行到终端。 文件重定向 通常我们希望将样本保存到另一个文件中。 subsample没有内置文件输出; 相反,它依赖于终端的输出重定向功能。 要保存


【文件预览】:
subsample-master
----MANIFEST.in(35B)
----README.rst(6KB)
----tests()
--------test_expectations()
--------test_cases()
--------fixtures()
----subsample()
--------main.py(4KB)
--------algorithms.py(2KB)
--------__init__.py(76B)
--------file_input.py(787B)
----LICENSE(843B)
----setup.py(475B)
----Makefile(1010B)
----util()
--------gensource.py(241B)

网友评论