文件名称:BERTOverflow:*语料库上的预训练BERT
文件大小:138KB
文件格式:ZIP
更新时间:2024-05-28 08:32:54
* named-entity-recognition bert
BERT溢出 该存储库包含有关*数据的经过预训练的BERT,该数据在软件域NER上显示了具有CRF层的最新性能。 检查点可在下载。 有关更多详细信息,请参见随附的论文: 注意:这只是使用您自己的数据进行BERT预训练的参考。 首先,您需要下载原始的,然后通过申请TPU使用,最后按照本自述文件进行BERT预培训。 数据 我们从*问题和答案中提取了1.52亿个句子。 词汇 我们用2K个不同的UNK符号创建80K个词汇表: import tokenizers bwpt = tokenizers.BertWordPieceTokenizer( vocab_file=None, add_special_tokens=True, unk_token='[UNK]', sep_token='[SEP]', cl
【文件预览】:
BERTOverflow-master
----bertoverflow.png(148KB)
----README.md(3KB)