文件名称:CLUENER2020:BiLSTM \ BERT \ Roberta(+ CRF)模型的PyTorch实现,用于命名实体识别
文件大小:12.45MB
文件格式:ZIP
更新时间:2024-06-14 17:21:09
pytorch named-entity-recognition ner bert bilstm-crf
Chinese NER Project 本项目为CLUENER2020任务baseline的代码实现,模型包括 BiLSTM-CRF BERT-base + X (softmax/CRF/BiLSTM+CRF) Roberta + X (softmax/CRF/BiLSTM+CRF) 本项目BERT-base-X部分的代码编写思路参考 。 项目说明参考知乎文章: Dataset 实验数据来自。这是一个中文细粒度命名实体识别数据集,是基于清华大学开源的文本分类数据集THUCNEWS,选出部分数据进行细粒度标注得到的。该数据集的训练集、验证集和测试集的大小分别为10748,1343,1345,平均句子长度37.4字,最长50字。由于测试集不直接提供,考虑到leaderboard上提交次数有限,本项目使用CLUENER2020的验证集作为模型表现评判的测试集。 CLUENER2020共有10个
【文件预览】:
CLUENER2020-main
----.DS_Store(10KB)
----BERT-Softmax()
--------data_process.py(2KB)
--------.DS_Store(10KB)
--------train.py(5KB)
--------experiments()
--------config.py(2KB)
--------utils.py(899B)
--------model.py(2KB)
--------run.py(5KB)
--------metrics.py(6KB)
--------data()
--------pretrained_bert_models()
--------case()
--------data_loader.py(4KB)
----BiLSTM-CRF()
--------data_process.py(2KB)
--------.DS_Store(8KB)
--------train.py(6KB)
--------experiments()
--------config.py(1KB)
--------metric.py(5KB)
--------utils.py(899B)
--------model.py(1KB)
--------run.py(6KB)
--------data()
--------case()
--------data_loader.py(2KB)
--------Vocabulary.py(3KB)
----BERT-CRF()
--------data_process.py(2KB)
--------.DS_Store(8KB)
--------train.py(6KB)
--------experiments()
--------config.py(2KB)
--------utils.py(899B)
--------model.py(2KB)
--------run.py(5KB)
--------metrics.py(6KB)
--------data()
--------pretrained_bert_models()
--------data_loader.py(4KB)
----requirements.txt(1KB)
----BERT-LSTM-CRF()
--------data_process.py(2KB)
--------.DS_Store(10KB)
--------train.py(6KB)
--------experiments()
--------config.py(2KB)
--------utils.py(899B)
--------model.py(2KB)
--------run.py(6KB)
--------metrics.py(6KB)
--------data()
--------pretrained_bert_models()
--------case()
--------data_loader.py(4KB)
----readme.md(5KB)