文件名称:基于语料库的多词单位抽取方法研究 (2009年)
文件大小:8.31MB
文件格式:PDF
更新时间:2024-06-13 07:56:20
自然科学 论文
多词单位是由两个或多个单词组成的独立的语义单位。多词单位的发现和使用在词典编纂、语言翻译和信息检索等领域有着重要的作用。发现多词单位的主要途径是从语料库中进行抽取。目前已经出现了很多从语料库中抽取多词单位的研究。抽取方法以统计学和语言学的知识为设计依据,近些年来也出现了一些数据挖掘算法的应用。本文分析了研究者们在多词单位抽取算法中的一些工作,包括多词单位的评分和选择。将评分算法根据它们的设计依据划分为三类,对它们进行总结分析,并用实验进行了验证。本文还分析了多种评分算法的组合方法,使用这些组合方法可以互补