bert-japanese:带有SentencePiece的BERT，用于日语文本下载

【文件属性】：

文件名称：bert-japanese:带有SentencePiece的BERT，用于日语文本

文件大小：197KB

文件格式：ZIP

更新时间：2024-05-30 17:12:08

JupyterNotebook

带有SentencePiece的BERT用于日语文本。这是带有SentencePiece令牌生成器的日语BERT模型的存储库。要将此存储库与所需的和一起克隆，请： git clone --recurse-submodules https://github.com/yoheikikuta/bert-japanese 预训练模型我们为日语文本提供了预训练的BERT模型和SentencePiece模型。训练数据是来自的日本Wikipedia语料库。请将以下google驱动器中的所有对象下载到model/目录。训练期间的损失函数如下（在1M步后，损失函数发生了巨大变化，因为max_seq_length从128更改为512 ）： ***** Eval results ***** global_step = 1400000 loss = 1.3773012 mask

立即下载

【文件预览】：
bert-japanese-master
----.gitmodules(185B)
----data()
--------wiki()
--------.gitkeep(0B)
----model()
--------.gitkeep(0B)
----config.ini(789B)
----bert()
----Dockerfile(642B)
----notebook()
--------pretraining.ipynb(125KB)
--------check-trained-tokenizer.ipynb(9KB)
--------check-extract-features.ipynb(5KB)
--------finetune-to-livedoor-corpus.ipynb(19KB)
--------.gitkeep(0B)
----LICENSE(11KB)
----src()
--------run_classifier.py(30KB)
--------utils.py(315B)
--------extract_features.py(14KB)
--------file-preprocessing.sh(1KB)
--------train-sentencepiece.py(912B)
--------run_pretraining.py(18KB)
--------data-download-and-extract.py(1KB)
--------tokenization_sentencepiece.py(6KB)
--------create_pretraining_data.py(15KB)
----pretraining-loss.png(155KB)
----requirements.txt(46B)
----.gitignore(121B)
----.dockerignore(11B)
----wikiextractor()
----README.md(7KB)

秒客网

bert-japanese:带有SentencePiece的BERT，用于日语文本

网友评论

相关文章