文件名称:论文研究-基于位置标签与词性结合的组合词抽取方法.pdf
文件大小:1.01MB
文件格式:PDF
更新时间:2022-08-11 23:50:48
组合词抽取,位置标签集,相邻度,反规则过滤,新词发现
现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先对语料进行文本预处理、添加位置标签、加权词频过滤等建立词条的位置标签集;然后依据位置标签集计算词条在句子中的相邻度判定组合词;最后制定反规则对抽取结果进行过滤,并对垃圾串进行两端逐步消减再判定进一步识别组合词。通过在不同语料库上进行实验,结果表明本方法具有更高的准确率。