文件名称:论文研究-基于多标签CRF的疾病名称抽取.pdf
文件大小:854KB
文件格式:PDF
更新时间:2022-08-11 14:07:27
命名实体识别,条件随机场,多标签,医疗文本,复合实体
生物医疗文本中的命名实体识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而其中一个基础工作是疾病名称的识别。医疗文本中存在大量的复合疾病名称,难以分离抽取出其中的实体。针对这一问题,提出一种基于多标签的条件随机场算法,首先对数据标注多层标签,每层标签针对复合疾病名称中的不同疾病,然后用整合后的最终标签去训练模型,最后再对模型预测的标签进行分离。此方法能够识别传统条件随机场算法无法识别的复合疾病名称,实验结果验证了所提算法的有效性。