文件名称:中文电子病历命名实体识别的主动学习方法研究
文件大小:3.51MB
文件格式:CAJ
更新时间:2021-07-23 05:35:55
电子病例 命名实体识别 主动学习
主动学习通过选择现有模型中未充分训练的数据进行迭代训练,从而利用少量标注数据训练出较高性能的模型。 传统的主动学习方法只关注数据本身的信息量而忽略了该数据是否孤立。论文提出一种改进的主动学习方法,利用相似病 历中出现的词汇往往雷同的特点,以文档中文字的分布衡量其在样本集的普遍程度,并以此对信息量进行加权。而后实现 该方法,并进行了与消极学习和传统主动学习方法的对比实验。结果表明,该方法相对消极学习与传统的主动学习方法, 效果有明显提升,能够减少对标注数据的需求。