stackexchange-dataset:用于将stackexchange数据转储到语言模型的文本数据集中的Python工具

时间:2024-03-07 18:33:46
【文件属性】:

文件名称:stackexchange-dataset:用于将stackexchange数据转储到语言模型的文本数据集中的Python工具

文件大小:8KB

文件格式:ZIP

更新时间:2024-03-07 18:33:46

Python

stackexchange_dataset 用于下载和处理到语言模型的文本数据集中的python工具。 在下载整个处理的数据集 设置 git clone https://github.com/EleutherAI/stackexchange_dataset/ cd stackexchange_dataset pip install -r requirements.txt 用法 要下载每个stackexchange转储并解析为文本,只需运行 python3 main.py --names all 要仅下载一个stackexchange,可以将名称添加为可选参数。 例如: python3 main.py --names security.stackexchange 要下载多个堆栈交换的列表,可以添加用逗号分隔的名称。 例如: python3 main.py --names ru.sta


【文件预览】:
stackexchange-dataset-master
----pairer.py(8KB)
----utils.py(2KB)
----main.py(4KB)
----requirements.txt(43B)
----LICENSE(1KB)
----README.md(2KB)
----downloader.py(3KB)

网友评论