文件名称:论文研究-统计和规则相结合的并列结构自动识别.pdf
文件大小:301KB
文件格式:PDF
更新时间:2022-08-11 14:20:47
并列结构,并列成分,最大熵模型
并列结构的自动识别是语言信息处理中的难点,采用统计和规则相结合的方法对并列结构的边界进行了识别。首先,根据连接词的位置,使用最大熵模型分别从左和从右识别出并列结构的左边界和右边界;接着,根据并列结构的特性对自动识别的左右边界使用预定义的规则进行后处理,得到最终左右边界。实验的训练集和测试分别包含12 396和1 219个并列结构。实验表明,该方法性能达到了78.1%,其中后处理加入规则的使用提高了3.4%。