基于条件随机场的汉语词汇特征研究

时间:2024-05-20 07:56:22
【文件属性】:

文件名称:基于条件随机场的汉语词汇特征研究

文件大小:1.98MB

文件格式:PDF

更新时间:2024-05-20 07:56:22

条件随机场 汉语词汇特征 信息提取

汉语语言在书面表达时不具有天然分词的特性,词汇与词汇之间没有分词标记,因此在汉语文本的识别中需结合其行文的习惯及规则,即所谓的词汇特征。已有研究通常在实验中显式地标注词汇特征来提高识别效果,增加了人工处理流程,极大地加重了算法移植的工作量。研究并归纳了常用汉语语言的词汇特征,并利用条件随机场(conditional random fields,CRF)的特征提取能力,自行实现了复杂特征函数,在语料只具有简单标注的前提下,隐式地提取词汇特征,提高了识别效果。实验证明,在汉语分词中应用复杂词汇特征能有效提高识别性能,提供了在应用中提高识别算法可移植性的新思路。


网友评论