基于多特征的自适应新词识别 (2007年)

时间:2024-06-03 03:42:29
【文件属性】:

文件名称:基于多特征的自适应新词识别 (2007年)

文件大小:538KB

文件格式:PDF

更新时间:2024-06-03 03:42:29

工程技术 论文

为提高自动分词系统对未登录词的识别性能,提出和实现了-种基于多特征的自适应新词识别方法。综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识别模型。同时,新词识别过程在字串PAT―Array数据结构上进行,可以抽取任意长度的新词语。实验结果表明,该方法新词发现速度快、节省存储空间。


网友评论