文件名称:covid-twitter-bert:用于分析COVID-19 Twitter数据的预训练BERT模型
文件大小:3.54MB
文件格式:ZIP
更新时间:2024-02-27 01:42:29
twitter pretrained-models twitter-sentiment-analysis twitter-data bert-model
COVID-Twitter-BERT COVID-Twitter-BERT(CT-BERT)是基于变压器的模型,该模型在有关COVID-19的大量Twitter消息集上进行了预训练。 v2模型在9700万条推文上进行了训练(1.2B训练示例)。 当在特定领域的数据集上使用时,我们的评估表明,与标准BERT-Large模型相比,该模型的边际性能提高了10–30%。 大多数改进都显示在与COVID-19相关的内容以及类似Twitter的消息中。 该存储库包含所有代码以及对和笔记本中使用的模型和数据集的引用,以对您自己的数据集上的CT-BERT进行微调。 如果您最终使用我们的作品,请引用:
【文件预览】:
covid-twitter-bert-master
----sync_bucket_data.py(3KB)
----report()
--------v1()
----preprocess()
--------create_predict_data.py(7KB)
--------prepare_pretrain_data.py(7KB)
--------create_pretrain_data.py(8KB)
--------create_finetune_data.py(8KB)
--------pretrain_helpers.py(13KB)
----logs()
--------.gitignore(14B)
----utils()
--------misc.py(1KB)
--------analysis.py(2KB)
--------optimizer.py(9KB)
--------finetune_helpers.py(4KB)
--------preprocess.py(6KB)
--------model_training_utils.py(24KB)
----config.py(2KB)
----CT_BERT_Huggingface_(GPU_training).ipynb(121KB)
----.gitmodules(106B)
----configs()
--------bert_config_covid_twitter_bert.json(314B)
--------bert_config_large_uncased_wwm.json(314B)
--------bert_config_large_uncased.json(314B)
--------bert_config_multi_cased.json(315B)
----run_finetune.py(19KB)
----convert_tf2_to_pytorch()
--------convert_tf2_to_pytorch_classifier.py(11KB)
--------convert_tf2_to_pytorch.py(9KB)
--------convert_tf2_to_pytorch_pretrain.py(12KB)
--------.gitignore(47B)
--------test_classifier.py(4KB)
--------test_converted_models.py(2KB)
----images()
--------COVID-Twitter-BERT-graph.jpeg(29KB)
--------COVID-Twitter-BERT.png(1.11MB)
--------COVID-Twitter-BERT_small.png(47KB)
--------.gitkeep(1B)
--------COVID-Twitter-BERT-medium.png(93KB)
----scripts()
--------convert_checkpoint_v1_to_v2.py(1KB)
--------run_finetune.sh(10KB)
--------download_vocab_files.py(1KB)
--------run_pretrain.sh(11KB)
----playground()
--------test_tokenize.py(1KB)
----requirements.txt(161B)
----datasets()
--------covid_category()
----LICENSE(1KB)
----run_pretrain.py(14KB)
----README.md(10KB)
----vocabs()
--------bert-large-cased-vocab.txt(208KB)
--------bert-base-uncased-vocab.txt(226KB)
--------bert-large-uncased-whole-word-masking-vocab.txt(226KB)
--------bert-large-uncased-vocab.txt(226KB)
--------bert-base-multilingual-uncased-vocab.txt(851KB)
--------bert-multi-cased-vocab.txt(972KB)
--------bert-large-cased-whole-word-masking-vocab.txt(208KB)
--------bert-base-cased-vocab.txt(208KB)
--------bert-base-multilingual-cased-vocab.txt(972KB)
----tensorflow_models()
----README_pretrain.md(3KB)
----Finetune_COVID_Twitter_BERT.ipynb(32KB)
----data()
--------.gitignore(14B)
----run_predict.py(13KB)
----.gitignore(2KB)