文件名称:基于概率统计的CLAWS算法-文本挖掘PPT
文件大小:406KB
文件格式:PPT
更新时间:2024-05-15 19:45:07
文本挖掘
基于概率统计的CLAWS算法 CLAWS是英语Constituent-Likelihood Automatic Word-tagging System(成分似然性自动词性自动标注系统)的简称,它是1983年玛沙尔(Mashall)在给LOB语料库(拥有各类文体的英国英语语料库,库容量为100万词)作自动词性标注时提出的一种算法。具体做法是: 先从待标注的LOB语料库中选出来部分语料,叫做“训练集”(Training Set), 对训练集中的语料逐词进行词性的人工标注, 然后利用计算机对训练集中的任意两个相邻标记的同现概率进行统计,形成一个相邻标记的同现概率矩阵。 进行自动标注时,系统从输入文本中顺序地截取一个有限长度的词串,这个词串的首词和尾词的词性应该是唯一的,这样的词串叫做跨段(span),记为W0,W1,W2,…,Wn,Wn+1。其中, W0和Wn+1 都是非兼类词, W1,W2,…,Wn 是n个兼类词。 利用同现概率矩阵提供的数据来计算这个跨段中由各个单词产生的每个可能标记的概率积,并选择概率积最大的标记串作为选择路径(path),以这个路径作为最佳结果输出。