文件名称:自动词类标注-文本挖掘PPT
文件大小:406KB
文件格式:PPT
更新时间:2024-05-15 19:45:07
文本挖掘
自动词类标注 早在60年代,国外学者就开始研究英语文本的自动词类标注问题,提出了一些消除兼类词歧义的方法,建立了一些自动词性标注系统。 1971年,美国布朗大学的格林(Greene)和鲁宾(Rubin)建立了TAGGIT系统,采用了86个词类标记,利用了3300条上下文框架规则(context frame rules)来排除兼类词歧义,自动标注正确率达到77%. 1983年,里奇(G. Leech)和加塞德(R. Garside)等人建立了CLAWS系统,用概率统计的方法来进行自动词性标注,他们使用了133×133的词类共现概率矩阵,通过统计模型来消除兼类词歧义,自动标注的正确率达到了96%. 1988年,德洛斯(S. J. DeRose)对CLAWS系统作了一些改进,利用线性规划的方法来降低系统的复杂性,提出了VOLSUNGA算法,大大地提高了处理效率,使自动词性标注的正确率达到了实用的水平。