openwebtext:OpenAI未发布的WebText数据集刮板的开放克隆。 此版本使用pushshift.io文件而不是API来提高速度

时间:2024-06-01 15:45:54
【文件属性】:

文件名称:openwebtext:OpenAI未发布的WebText数据集刮板的开放克隆。 此版本使用pushshift.io文件而不是API来提高速度

文件大小:145KB

文件格式:ZIP

更新时间:2024-06-01 15:45:54

Python

OpenWebText ( ,( )和( OpenAI未发布的WebText数据集(, ,)刮板的开放克隆,用于训练GPT-2。 当前结果是超过2300万个URL和1000万个HTML页面。 此实现从预下载的(每月)pushshift.io Reddit提交转储中挖掘和智能删除重复的+3个业力URL(比连续调用Web API快得多),下载原始HTML并提取文本。 为了节省时间,您可以在使用预过滤的URL列表,这会将140GB的pushshift数据减少到内容抓取实际需要的2GB URL。 还有一个用于标记的初始实用程序,我们正在寻求尽快添加BPE编码。 该代码库是有功能的,但是正在积极开发中,因此请随时发布问题或提出改进建议(欢迎提出请求)。 依存关系 如果使用pipenv( pip install --user pipenv ),则cd到项目根目录并运行 pipenv ins


【文件预览】:
openwebtext-master
----.gitignore(1KB)
----requirements.txt(546B)
----extract_urls.py(3KB)
----scrapers.py(2KB)
----LICENSE(34KB)
----Pipfile.lock(21KB)
----url_utils.py(4KB)
----count_docs.py(1KB)
----download.py(8KB)
----utils.py(603B)
----README.md(5KB)
----fetch_urls.py(1KB)
----pushshift_dumps()
--------RS_v2_2005-06.xz(17KB)
--------RS_v2_2005-07.xz(91KB)
----Pipfile(273B)
----extract_text.py(3KB)
----deduplicate_urls.py(3KB)
----tokenize_text.py(4KB)

网友评论