the-pile

时间:2021-03-19 21:02:36
【文件属性】:
文件名称:the-pile
文件大小:34KB
文件格式:ZIP
更新时间:2021-03-19 21:02:36
Python 桩复制代码 堆是一个庞大的,多样化的,开源的语言建模数据集,由许多较小的数据集组合而成。目的是从尽可能多的模式中获取文本,以确保使用“桩”训练的模型将具有更广泛的泛化能力。我们目前正在开发第1版,最终目标是1 TiB英文文本。在完成版本1之后,我们的下一个目标是建立一个具有多种语言的10TiB文本数据集。 该存储库用于复制或制作桩的变体。如果您想使用“桩”,则计划在不久的将来发布正式版本。如果您想在正式发布之前成为PILE的早期用户,请通过我们的与我们联系。 桩目前正在大力发展。可能会Swift引入重大更改,而不会发出警告。 成分 原始尺寸 重量 时代 有效尺寸 平均文件尺寸 227.12 GiB 18.11% 1.0 227.12 GiB 4.33 KiB 90.27 GiB 14.40% 2.0 180.55 GiB 30.55 KiB 100.96 GiB 1
【文件预览】:
the-pile-master
----requirements-dev.txt(110B)
----pytest.ini(26B)
----test()
--------test_deterministic.py(586B)
----LICENSE(1KB)
----setup.py(1KB)
----.gitignore(66B)
----README.md(7KB)
----processing_scripts()
--------github_reduce.py(502B)
--------ablation_dedupe()
--------join.py(755B)
--------fix_dm_math.py(1KB)
--------lang_len_analysis_pass1.py(2KB)
--------pass2_shuffle_holdout.py(1KB)
--------pile_proportions_sanitycheck.py(684B)
--------dedupe_train.py(1KB)
--------lang_len_analysis_pass2.py(5KB)
--------profanity_analysis_pass1.py(4KB)
--------fix_empty_lines.py(720B)
--------README.md(3KB)
--------repack_arxiv.py(826B)
----the_pile()
--------utils.py(6KB)
--------tfds_pile.py(6KB)
--------datasets.py(22KB)
--------__init__.py(114B)
--------pile.py(13KB)
----CODEOWNERS(11B)
----package.bat(95B)

网友评论