文件名称:bert-japanese:带有SentencePiece的BERT,用于日语文本
文件大小:197KB
文件格式:ZIP
更新时间:2024-05-30 17:12:08
JupyterNotebook
带有SentencePiece的BERT用于日语文本。 这是带有SentencePiece令牌生成器的日语BERT模型的存储库。 要将此存储库与所需的和一起克隆,请: git clone --recurse-submodules https://github.com/yoheikikuta/bert-japanese 预训练模型 我们为日语文本提供了预训练的BERT模型和SentencePiece模型。 训练数据是来自的日本Wikipedia语料库。 请将以下google驱动器中的所有对象下载到model/目录。 训练期间的损失函数如下(在1M步后,损失函数发生了巨大变化,因为max_seq_length从128更改为512 ): ***** Eval results ***** global_step = 1400000 loss = 1.3773012 mask
【文件预览】:
bert-japanese-master
----.gitmodules(185B)
----data()
--------wiki()
--------.gitkeep(0B)
----model()
--------.gitkeep(0B)
----config.ini(789B)
----bert()
----Dockerfile(642B)
----notebook()
--------pretraining.ipynb(125KB)
--------check-trained-tokenizer.ipynb(9KB)
--------check-extract-features.ipynb(5KB)
--------finetune-to-livedoor-corpus.ipynb(19KB)
--------.gitkeep(0B)
----LICENSE(11KB)
----src()
--------run_classifier.py(30KB)
--------utils.py(315B)
--------extract_features.py(14KB)
--------file-preprocessing.sh(1KB)
--------train-sentencepiece.py(912B)
--------run_pretraining.py(18KB)
--------data-download-and-extract.py(1KB)
--------tokenization_sentencepiece.py(6KB)
--------create_pretraining_data.py(15KB)
----pretraining-loss.png(155KB)
----requirements.txt(46B)
----.gitignore(121B)
----.dockerignore(11B)
----wikiextractor()
----README.md(7KB)