基于字簇的多模型中文分词方法研究

时间:2024-05-20 07:07:08
【文件属性】:

文件名称:基于字簇的多模型中文分词方法研究

文件大小:1.4MB

文件格式:PDF

更新时间:2024-05-20 07:07:08

中文分词 构词规律 模型参数

字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个字进行建模,然后对学习出的模型参数进行聚类分析形成字簇,最后基于字簇重新训练模型参数。实验结果表明,该方法能够有效地发现具有相同或相近构词规律的字簇,很好地区别了同类特征对不同字的作用程度。


网友评论