Chinese-Transformer-XL

时间:2024-04-01 13:20:50
【文件属性】:

文件名称:Chinese-Transformer-XL

文件大小:1.01MB

文件格式:ZIP

更新时间:2024-04-01 13:20:50

Python

中文-变形金刚-XL 正在施工:construction: 本项目提供了智源研究院“文汇”预训练模型中国变压器-XL的预训练和文本生成代码。 数据 本模型使用了智源研究院发布的中文预训练语料 。具体地,我们使用了WuDaoCorpus中来自百度百科+搜狗百科(133G),知乎(131G),百度知道(38G)的语料,一共303GB数据。 模型 本模型使用了的训练目标,同时使用能够更好地处理长序列建模的替代了GPT中的Transformer。模型的结构与GPT-3 2.7B(32层,隐示尺寸2560 ,,每层32个关注头)的基本相同,因为Transformer-XL的结构尺寸,模型参数增加到了29亿。 结果 为了验证模型的生成能力,我们在中文的开放域长文问答上进行的评价。我们从上随机选择了100个不同领域的,没有训练语料中的问题。对每个问题,由人类测试成员对一个高层次数回答,3个模型生成的回答和3个生成的回答在


【文件预览】:
Chinese-Transformer-XL-master
----docker()
--------prepare.sh(753B)
--------Dockerfile(10KB)
--------ssh-env-config.sh(4KB)
--------Dockerfile-cuda101(10KB)
----pretrain_bert.py(20KB)
----gpt2_data_loader.py(8KB)
----arguments.py(21KB)
----pretrain_gpt2.py(30KB)
----chinese_sentencepiece()
--------cog-pretrain.model(998KB)
--------cog-pretrain.vocab(706KB)
----fp16()
--------loss_scaler.py(10KB)
--------fp16util.py(8KB)
--------__init__.py(941B)
--------fp16.py(31KB)
----model()
--------distributed.py(5KB)
--------modeling.py(65KB)
--------model.py(4KB)
--------__init__.py(852B)
--------gpt2_modeling.py(4KB)
----detokenizer.py(2KB)
----scripts()
--------ds_pretrain_gpt2_2.9B.sh(2KB)
--------ds_config_2.9B.json(850B)
--------pretrain_gpt2_model_parallel.sh(1KB)
--------generate_text.sh(964B)
--------pretrain_gpt2_distributed.sh(1KB)
--------ds_config.json(528B)
--------ds_config_10B.json(846B)
--------split_json.py(4KB)
--------ds_checkpoint_check.sh(1KB)
--------pretrain_gpt2.sh(780B)
--------presplit_sentences_json.py(645B)
--------ds_test_gpt2.sh(1KB)
----utils.py(15KB)
----configure_data.py(10KB)
----requirements.txt(272B)
----learning_rates.py(3KB)
----generate_samples.py(12KB)
----evaluate_perplexity.py(10KB)
----README.md(2KB)
----data_utils()
--------file_utils.py(8KB)
--------samplers.py(7KB)
--------extraction.py(3KB)
--------tokenization.py(40KB)
--------sp_tokenizer.py(4KB)
--------datasets.py(35KB)
--------__init__.py(8KB)
--------tokenization_gpt2.py(13KB)
--------lazy_loader.py(8KB)
--------tf_dl.py(5KB)
--------wordpiece.py(15KB)
--------corpora.py(12KB)
----mpu()
--------data.py(4KB)
--------initialize.py(5KB)
--------utils.py(3KB)
--------__init__.py(2KB)
--------grads.py(3KB)
--------transformer.py(35KB)
--------mappings.py(4KB)
--------layers.py(13KB)
--------tests()
--------cross_entropy.py(5KB)
--------random.py(14KB)
----openwebtext()
--------tokenizer.py(1KB)
--------make_gpt2_sizes.py(982B)
--------merge_jsons.py(2KB)
--------group_duplicates_url.py(3KB)
--------README.md(2KB)
--------cleanup_dataset.py(4KB)
--------run_make_gpt2_dataset.sh(234B)
--------remove_group_duplicates.py(2KB)
--------blacklist_urls.py(7KB)
--------find_duplicates.py(4KB)
--------make_gpt2_dataset.py(2KB)
----generation_utils.py(15KB)

网友评论