indic-bert:基于BERT的印度语言多语言模型

时间:2024-02-24 12:19:18
【文件属性】:

文件名称:indic-bert:基于BERT的印度语言多语言模型

文件大小:336KB

文件格式:ZIP

更新时间:2024-02-24 12:19:18

nlp language-model bert indian-languages multilingual-models

印度文 | 印度伯特(Indic bert)是一种多语言ALBERT模型,专门涵盖12种主要印度语言。 它在我们约90亿个代币的新颖语料库上进行了预训练,并在一​​系列多样化的任务上进行了评估。 与其他流行的公开多语言模型相比,Indic-bert的参数要少大约10倍,同时它也可以达到与这些模型同等或更好的性能。 我们还介绍了IndicGLUE-一组标准评估任务,可用于衡量印度语言中的单语和多语模型的NLU性能。 与IndicGLUE一起,我们还编译了其他评估任务的列表。 该存储库包含用于在indic-bert和其他类似bert的模型上运行所有这些评估任务的代码。 目录 介绍 印度的BE


【文件预览】:
indic-bert-master
----notebooks()
--------finetuning.ipynb(3KB)
----configs()
--------albert_large_config.json(508B)
--------albert_base_config.json(507B)
----scripts()
--------pretrain_albert.sh(594B)
--------gen_mtxt.sh(1KB)
--------vocab_dist.py(721B)
--------create_masked_data.sh(706B)
--------ner_preprocess.sh(1KB)
--------convert_to_pt.sh(222B)
--------evaluate.py(761B)
--------preprocess.py(1010B)
--------train_tokenizer.sh(496B)
----albert()
--------train.py(0B)
--------lamb_optimizer.py(5KB)
--------tokenization.py(14KB)
--------run_classifier.py(19KB)
--------albert_glue_fine_tuning_tutorial.ipynb(11KB)
--------run_squad_v2.py(19KB)
--------run_trivial_model_test.sh(553B)
--------run_pretraining.py(22KB)
--------run_squad_v1.py(20KB)
--------create_pretraining_data.py(23KB)
--------modeling.py(45KB)
--------tokenization_test.py(5KB)
--------run_race.py(17KB)
--------requirements.txt(202B)
--------__init__.py(606B)
--------optimization_test.py(2KB)
--------optimization.py(8KB)
--------classifier_utils.py(35KB)
--------modeling_test.py(10KB)
--------CONTRIBUTING.md(1KB)
--------LICENSE(11KB)
--------fine_tuning_utils.py(3KB)
--------README.md(13KB)
--------export_to_tfhub.py(6KB)
--------run_pretraining_test.py(5KB)
--------squad_utils.py(62KB)
--------evaluate.py(0B)
--------export_checkpoints.py(6KB)
--------race_utils.py(15KB)
--------run_glue.sh(2KB)
----requirements.txt(1KB)
----requirements_colab.txt(1KB)
----LICENSE(1KB)
----fine_tune()
--------modules()
--------__init__.py(0B)
--------cli.py(6KB)
--------data()
----docs()
--------arxiv2020_indicnlp_corpus.pdf(195KB)
--------advanced-usage.md(2KB)
----.gitignore(1KB)
----readme.md(18KB)

网友评论