文件名称:词性标注-文本挖掘PPT
文件大小:406KB
文件格式:PPT
更新时间:2024-05-15 19:45:07
文本挖掘
词性标注 定义:将句子中兼类词的词性根据上下文唯一地确定下来。 兼类词分类: 同型异性异义兼类词:例如:领导(动词/名词) 同型异性同义兼类词:例如:小时(量词/名词) 异型同性同义兼类词:例如:电脑,计算机 自动词性标注就是用计算机来自动地给文本中的词标注词类。 在英语、汉语等自然语言中,都存在着大量的词的兼类现象,这给文本的自动词性标注带来了很大的困难。因此,如何排除词类歧义,是文本自动词性标注研究的关键问题。 标注技术路线:基于概率统计和基于规则