cc_net:下载和清除常见抓取数据的工具

时间:2024-05-26 10:53:51
【文件属性】:

文件名称:cc_net:下载和清除常见抓取数据的工具

文件大小:90KB

文件格式:ZIP

更新时间:2024-05-26 10:53:51

Python

cc_net 工具为我们介绍了下载和干净的常见抓取 。 如果您发现这些资源有用,请考虑引用: @inproceedings{wenzek2020ccnet, title={CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data}, author={Wenzek, Guillaume and Lachaux, Marie-Anne and Conneau, Alexis and Chaudhary, Vishrav and Guzm{\'a}n, Francisco and Joulin, Armand and Grave, {\'E}douard}, booktitle={Proceedings of The 12th Language Resources and Evaluation


【文件预览】:
cc_net-master
----.circleci()
--------config.yml(2KB)
----CONTRIBUTING.md(2KB)
----config()
--------test_segment.json(506B)
--------lid_exp.json(217B)
--------test_reproduce.json(378B)
--------mine_segment.json(260B)
----LICENSE(1KB)
----setup.py(2KB)
----README.md(6KB)
----Makefile(8KB)
----cc_net()
--------minify.py(9KB)
--------tokenizer.py(2KB)
--------mine.py(22KB)
--------get_wiki_cirrus.py(4KB)
--------flat_hash_set.py(7KB)
--------execution.py(7KB)
--------__init__.py(179B)
--------jsonql.py(41KB)
--------perplexity.py(11KB)
--------split_by_lang.py(5KB)
--------tools()
--------__main__.py(340B)
--------process_wet_file.py(9KB)
--------dedup.py(15KB)
--------text_normalizer.py(5KB)
--------data()
--------regroup.py(3KB)
----tests()
--------test_transformer.py(2KB)
--------test_flat_hash_set.py(2KB)
--------test_parse_wet_file.py(2KB)
--------test_regroup.py(2KB)
--------__init__.py(181B)
--------test_dedup.py(7KB)
--------test_normalizer.py(993B)
--------conftest.py(596B)
--------test_jsonql.py(10KB)
--------data()
--------test_minify.py(5KB)
----CODE_OF_CONDUCT.md(3KB)
----.gitignore(258B)
----pyproject.toml(424B)
----CHANGELOG.md(98B)

网友评论