论文研究-统计与规则相融合的领域术语抽取算法.pdf

时间:2022-08-11 13:15:28
【文件属性】:

文件名称:论文研究-统计与规则相融合的领域术语抽取算法.pdf

文件大小:1.16MB

文件格式:PDF

更新时间:2022-08-11 13:15:28

领域术语抽取,词语度,领域度,左右信息熵扩展,边界检测,词频—逆文档频率

针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频—逆文档频率(TF-IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于该方法构建的领域术语抽取系统的准确率为84.33%,能够有效支持中文领域术语的自动抽取。


网友评论