bert-japanese:日语文本的BERT模型

时间:2024-05-27 04:39:40
【文件属性】:

文件名称:bert-japanese:日语文本的BERT模型

文件大小:28KB

文件格式:ZIP

更新时间:2024-05-27 04:39:40

Python

预训练的日本BERT模型 这是预训练的日语BERT模型的存储库。 可以在《 (Hugging Face)中找到这些模型。 模型中心: : 有关我们的预训练模型的先前版本的信息,请参见此存储库的标记。 模型架构 我们模型的架构与Google提出的原始BERT模型相同。 基于BERT的模型包括12层,768个隐藏状态维度和12个关注头。 BERT大型模型由24层,1024个隐藏状态维和16个关注头组成。 训练数据 这些模型在日语版本的Wikipedia上进行了训练。 训练语料库从2020年8月31日起根据Wikipedia Cirrussearch转储文件生成。 生成的语料库文件总计为4.0GB,包含大约3000万个句子。 我们将形态分析器与词典结合使用,将文本拆分为句子。 $ WORK_DIR= " $HOME /work/bert-japanese " $ python ma


【文件预览】:
bert-japanese-main
----make_corpus_wiki.py(3KB)
----merge_split_corpora.py(1KB)
----tokenization.py(5KB)
----japanese_tokenizers()
--------pre_tokenizers.py(1KB)
--------implementations.py(2KB)
----create_pretraining_data.py(17KB)
----convert_pytorch_checkpoint_to_tf2.py(4KB)
----requirements.txt(214B)
----masked_lm_example.ipynb(4KB)
----LICENSE(11KB)
----README.md(10KB)
----model_configs()
--------bert-base-v2()
--------bert-large()
--------bert-base-v1()
----convert_original_tf2_checkpoint_to_pytorch.py(11KB)
----train_tokenizer.py(1KB)

网友评论