文件名称:基于规则的标注-文本挖掘PPT
文件大小:406KB
文件格式:PPT
更新时间:2024-05-15 19:45:08
文本挖掘
基于规则的标注 基于规则的方法通过考虑上下文中的词及标记对兼类词的影响决定兼类词的词性,常常作为基于概率统计方法的补充。将统计方法和规则方法结合被认为是解决词性标注问题的最佳手段。 在统计语料规模较大的情况下,结合给定最小支持度及最小可信度,首先发现大于最小支持度常用模式集,然后生成关联规则。若此规则的可信度大于给定的最小可信度,则得到词性规则。只要最小可信度定义得足够高,获得的规则就可以用于处理兼类词的情况。 (规则依赖于词与词性的各种组合,挖掘过程较为复杂)