文件名称:openwebtext:OpenAI的GPT-2 WebText数据集的开放克隆。 仍在制品
文件大小:14KB
文件格式:ZIP
更新时间:2024-05-22 09:23:41
Python
OpenWebText 该项目是概述的GPT-2 WebText数据集的克隆。 该项目仍然是在制品。 非常感谢让我使用他的下载代码。 他的OpenWebText版本写得很好,所以请查看! 依存关系 Pipenv,Python 3, 要安装python依赖项,请执行以下操作: pipenv install 依赖关系: 在Ubuntu上: sudo apt-get install libxml2-dev libxslt-dev 在OS X上: brew install libxml2 libxslt 用法 从reddit获取URL列表: pipenv run python get_urls.py 从网址下载数据: pipenv run python download.py 结果文件将以data/格式{domain}-{sha256 hash of url}.txt存放。 享
【文件预览】:
openwebtext-master
----utils.py(1KB)
----Pipfile(239B)
----Pipfile.lock(13KB)
----filter.py(3KB)
----scrapers.py(3KB)
----.gitignore(20B)
----download_old.py(1KB)
----README.md(972B)
----get_urls.py(932B)
----download.py(10KB)