文件名称:named_entity_recognition:中文命名实体识别(包括多种模型:HMM,CRF,BiLSTM,BiLSTM + CRF的具体实现)
文件大小:24.44MB
文件格式:ZIP
更新时间:2024-02-24 09:09:24
nlp hmm crf named-entity-recognition ner
中文命名实体识别 数据集 本项目尝试使用了多种不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM + CRF)来解决中文命名实体识别问题,数据集用的是论文ACL 2018 中收集的简历数据,数据的格式如下,它的每个行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行替换。 美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER 我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O 该数据集就位于项目目录下的ResumeNER文件夹里。 运行结果 下面是多种不同的模型以及这Ensemble这四个模型预测结果的准确率(取最好): HMM 慢性肾功能衰竭 双线性STM BiLSTM + CRF 合奏 召回率 91.22% 95.43% 95.32% 95.72% 95.65% 准确率 91.49% 95.43% 95.37% 95.74% 95.69% F1分数 91.30% 95.42% 95.32% 95.70% 95.64% 最后一列Ensemble是将这四个模型的预测结果结合起来,使用“
【文件预览】:
named_entity_recognition-master
----models()
--------crf.py(867B)
--------util.py(5KB)
--------__init__.py(0B)
--------bilstm.py(1KB)
--------config.py(262B)
--------hmm.py(6KB)
--------bilstm_crf.py(11KB)
----main.py(2KB)
----utils.py(2KB)
----test.py(3KB)
----evaluating.py(6KB)
----ResumeNER()
--------dev.char.bmes(117KB)
--------train.char.bmes(1.04MB)
--------test.char.bmes(132KB)
----evaluate.py(3KB)
----imgs()
--------decode_crf.png(4KB)
--------biLSTM_NER.png(8KB)
--------log_likehood_crf.png(7KB)
--------func_set.png(3KB)
--------w_crf.png(4KB)
--------log_linear_crf.png(7KB)
----output.txt(31KB)
----.gitignore(31B)
----requirement.txt(121B)
----ckpts()
--------crf.pkl(968KB)
--------hmm.pkl(200KB)
--------bilstm.pkl(12.81MB)
--------bilstm_crf.pkl(12.83MB)
----README.md(9KB)
----data.py(1KB)