guwenbert:古文·伯特下载

【文件属性】：

文件名称：guwenbert:古文·伯特

文件大小：2.15MB

文件格式：ZIP

更新时间：2024-04-07 21:46:06

transformers bert classical-chinese literary-chinese guwenbert

| GuwenBERT是一个基于大量古文语料的RoBERTa模型。在自然语言处理领域中，预训练语言模型（预训练语言模型）已成为非常重要的基础技术。古文研究和自然语言处理的结合，我们发布了古文预训练模型GuwenBERT 。对于古文的常见任务：断句，标点，专有名称标注，目前通常采用序列标注模型。此类模型非常依赖预训练的词向量或者BERT，所以一个好的语言模型可以大大提高标注效果。通过实验，在RoBERTa效果提高6.3％，只需300步就可以达到中文RoBERTa的最终水平，特别适合替换语料不足的小数据集。使用我们的模型也可以减少数据清洗，，数据增强，约会字典等繁琐的程序，在评测中我们仅仅用了一个BERT + CRF的模型就可以达到第二名。 GuwenBERT基于殆知阁古代文献语料训练，其中包含15,694本古文书籍，字符数1.70。所有繁体字均经过简体转换处理。 GuwenBER

立即下载

【文件预览】：
guwenbert-main
----LICENSE(11KB)
----assets()
--------pre-train-work-flow.png(171KB)
--------基于继续训练的古汉语语言模型.pdf(1.95MB)
--------GuwenBERT.png(13KB)
--------demo.png(191KB)
----README_EN.md(7KB)
----README.md(9KB)

秒客网

guwenbert:古文·伯特

网友评论

相关文章