论文研究-基于排序集成的哈萨克语固定短语抽取.pdf

时间:2022-10-02 18:14:21
【文件属性】:

文件名称:论文研究-基于排序集成的哈萨克语固定短语抽取.pdf

文件大小:608KB

文件格式:PDF

更新时间:2022-10-02 18:14:21

论文研究

短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。


网友评论