BERTweet:BERTweet:英语推文的预训练语言模型(EMNLP-2020)

时间:2024-02-21 06:10:00
【文件属性】:

文件名称:BERTweet:BERTweet:英语推文的预训练语言模型(EMNLP-2020)

文件大小:8KB

文件格式:ZIP

更新时间:2024-02-21 06:10:00

目录 BERTweet:英语推文的预训练语言模型 BERTweet是第一个为英语Tweets预先训练的公共大规模语言模型。 BERTweet使用与相同的模型配置,根据预训练过程进行训练。 用于预训练BERTweet的语料库由850M的英语Tweets(16B单词令牌〜80GB)组成,包含从01/2012到08/2019流的845M Tweets和与COVID-19大流行相关的5M Tweets。 BERTweet的性能优于其竞争对手的基于RoBERTa的和基于并且在词性标记,命名实体识别和文本分类的三个下游Tweet NLP任务上均优于以前的最新模型。 BERTweet的一般架构和实验结果可以在我们的找到: @inproceedings{bertweet, title = {{BERTweet: A pre-trained language model for English Tweets}}, author = {Dat Quoc Nguyen and Thanh Vu and Anh Tuan Nguyen}, booktitle = {Proceedings


【文件预览】:
BERTweet-master
----TweetNormalizer.py(2KB)
----README_fairseq.md(7KB)
----LICENSE(1KB)
----README.md(6KB)

网友评论