guwenbert:古文·伯特

时间:2024-04-07 21:46:06
【文件属性】:

文件名称:guwenbert:古文·伯特

文件大小:2.15MB

文件格式:ZIP

更新时间:2024-04-07 21:46:06

transformers bert classical-chinese literary-chinese guwenbert

| GuwenBERT是一个基于大量古文语料的RoBERTa模型。 在自然语言处理领域中,预训练语言模型(预训练语言模型)已成为非常重要的基础技术。古文研究和自然语言处理的结合,我们发布了古文预训练模型GuwenBERT 。 对于古文的常见任务:断句,标点,专有名称标注,目前通常采用序列标注模型。此类模型非常依赖预训练的词向量或者BERT,所以一个好的语言模型可以大大提高标注效果。通过实验,在RoBERTa效果提高6.3% ,只需300步就可以达到中文RoBERTa的最终水平,特别适合替换语料不足的小数据集。使用我们的模型也可以减少数据清洗,,数据增强,约会字典等繁琐的程序,在评测中我们仅仅用了一个BERT + CRF的模型就可以达到第二名。 GuwenBERT基于殆知阁古代文献语料训练,其中包含15,694本古文书籍,字符数1.70。所有繁体字均经过简体转换处理。 GuwenBER


【文件预览】:
guwenbert-main
----LICENSE(11KB)
----assets()
--------pre-train-work-flow.png(171KB)
--------基于继续训练的古汉语语言模型.pdf(1.95MB)
--------GuwenBERT.png(13KB)
--------demo.png(191KB)
----README_EN.md(7KB)
----README.md(9KB)

网友评论