文件名称:基于多特征的自适应新词识别 (2007年)
文件大小:538KB
文件格式:PDF
更新时间:2024-06-03 03:42:29
工程技术 论文
为提高自动分词系统对未登录词的识别性能,提出和实现了-种基于多特征的自适应新词识别方法。综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识别模型。同时,新词识别过程在字串PAT―Array数据结构上进行,可以抽取任意长度的新词语。实验结果表明,该方法新词发现速度快、节省存储空间。