openwebtext:OpenAI未发布的WebText数据集刮板的开放克隆。此版本使用pushshift.io文件而不是API来提高速度下载

【文件属性】：

文件名称：openwebtext:OpenAI未发布的WebText数据集刮板的开放克隆。此版本使用pushshift.io文件而不是API来提高速度

文件大小：145KB

文件格式：ZIP

更新时间：2024-06-01 15:45:54

Python

OpenWebText （，（）和（ OpenAI未发布的WebText数据集（，，）刮板的开放克隆，用于训练GPT-2。当前结果是超过2300万个URL和1000万个HTML页面。此实现从预下载的（每月）pushshift.io Reddit提交转储中挖掘和智能删除重复的+3个业力URL（比连续调用Web API快得多），下载原始HTML并提取文本。为了节省时间，您可以在使用预过滤的URL列表，这会将140GB的pushshift数据减少到内容抓取实际需要的2GB URL。还有一个用于标记的初始实用程序，我们正在寻求尽快添加BPE编码。该代码库是有功能的，但是正在积极开发中，因此请随时发布问题或提出改进建议（欢迎提出请求）。依存关系如果使用pipenv（ pip install --user pipenv ），则cd到项目根目录并运行 pipenv ins

立即下载

【文件预览】：
openwebtext-master
----.gitignore(1KB)
----requirements.txt(546B)
----extract_urls.py(3KB)
----scrapers.py(2KB)
----LICENSE(34KB)
----Pipfile.lock(21KB)
----url_utils.py(4KB)
----count_docs.py(1KB)
----download.py(8KB)
----utils.py(603B)
----README.md(5KB)
----fetch_urls.py(1KB)
----pushshift_dumps()
--------RS_v2_2005-06.xz(17KB)
--------RS_v2_2005-07.xz(91KB)
----Pipfile(273B)
----extract_text.py(3KB)
----deduplicate_urls.py(3KB)
----tokenize_text.py(4KB)

秒客网

openwebtext:OpenAI未发布的WebText数据集刮板的开放克隆。此版本使用pushshift.io文件而不是API来提高速度

网友评论

相关文章

openwebtext:OpenAI未发布的WebText数据集刮板的开放克隆。 此版本使用pushshift.io文件而不是API来提高速度

网友评论

相关文章

openwebtext:OpenAI未发布的WebText数据集刮板的开放克隆。此版本使用pushshift.io文件而不是API来提高速度