文件名称:基于多策略的专业领域术语抽取器的设计 (2005年)
文件大小:182KB
文件格式:PDF
更新时间:2024-06-10 22:20:46
工程技术 论文
设计了一个将统计方法与规则方法相结合的专业领域内术语抽取算法。针对专业领域术语的特点,利用多种衡量字符串中各字之间结合“紧密程度”的统计量,先使用阈值分类器抽取出双字候选项;然后再对这些候选项向左右进行一定程度的扩充,从中筛选出符合要求的多字候选项;最后将所得候选项进行过滤,得到最终结果。据此实现了一个以未切分标注的生语料为输入、以专业领域术语为输出的抽取程序,在对多个领域内的语料进行测试后对实验结果进行分析,指出其中存在的问题,对未来的工作作出了展望。