参考

时间:2024-03-07 20:06:27

项目名称 超大规模词义标注平行语料库自动构建
项目所属
一级学科 0809\0502 (跨院项目) 项目所属
二级学科 080902\050201
项目类型 (√)重点项目 ( )一般项目 ( )指导项目
( )校企合作基金项目
项目来源 A B C 来源项目名称 来源项目类别
√ 基于词汇语义的统计机器翻译研究 国家自然科学基金青年基金项目
项目实施时间 起始时间: 2015 年 05 月 完成时间: 2017 年 05 月




词义标注语料库在自然语言处理各个领域具有重要应用。本项目采用无监督方法标注双语平行语料库,避免了传统人工标注方法规模小、成本高的缺陷。从而缓解信息检索、智能问答和机器翻译对大规模语料库的迫切需求。

申请人或申请团队 姓名 年级 学号 所在院系
/专业 联系电话 E-mail


人 张端风 大二 1327403062 计算机学院 15606132783 cynorr@sina.com

员 王欢明 大二 1327403097 计算机学院 15501690064 huanmingwong@gmail.com
侍季 大二 1304410007 外国语学院 13815793648 1084974869@qq.com
杨曼滢 大二 1304410018 外国语学院 18896587011 2721937146@qq.com
指 导 教 师 第一指导教师 姓名 熊德意 单位 苏州大学
年龄 36 专业技术职务 教授
主要成果 1. 自然语言处理领域*国际会议ACL长文7篇。
2. 由Springer出版英文学术专著《Linguistically Motivated Statistical Machine Translation: Models and Algorithms》一部。
3. 发表学术论文40余篇,其中SCI/EI检索国际期刊和会议论文26篇,CCF-A/B类国际会议论文17篇。
4. 编著英文论文集2本,其中EI检索论文集1本(IEEE CPS出版)。所发表的论文Google Scholar总被引用次数1000多次。

一、申请理由
词义标注平行语料库在自然语言处理领域有着重大意义,而目前人工的语料库无法满足信息检索、机器翻译、文章摘要方面的更新速度和覆盖率。因此,自动化构建超大规模词义标注平行语料库已成趋势。
我组具有扎实的主题模型基础,对自然语言处理、主题模型等有广泛深入的理解,已完成主题模型优化和双语扩展的前期相关工作。此外编程方面,在算法竞赛中获得过奖项,其理论和编程能力完全胜任此项研究。此项目基于我组现有的知识储备的同时,又具有一定的挑战性,所以本次科研会意义深远且又充满乐趣。
二、项目方案

一、项目研究背景
超大规模词义标注平行语料库在自然语言处理领域有着重大意义,既为机器翻译任务提供数据,同时也对偏离形式对等的等值翻译等工作也有诸多贡献。目前大规模词义标注平行语料库的构建工作却进行得十分缓慢,无法满足在信息检索、机器翻译、文章摘要方面的迫切需要。
本项目基于主题模型,采用无监督的方法自动构建超大规模的词义标注平行语料库,将分布式语义表示和人工构建的知识本体WordNet和HowNet有机结合,有效避免了传统人工构建方法耗时、成本高的缺陷,自动构建超大规模双语平行语料。
二、项目研究目标及主要内容
目标:本课题采用无监督的学习方法在覆盖面广的语料下训练词义,批量标注实意词在语境中的词义集合分布,旨在自动建立超大规模的双语平行语料库。
主要内容:

  1. 主题模型
    主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。
  2. Word2vec
    词向量是一种分布式语义,它以一个n维的实值向量来表示一个词。由于这些向量是实值非正交的,因此向量之间的(余弦)距离就可以用来表示词之间的联系。
  3. 相关度相似度
    利用高斯距离和余弦值,对英文语句建模,将高斯距离和cos值有机运用到词语相关度和相似度计算。
    三、项目创新特色概述
  4. 自动标注
    本课题词基于主题模型,采用无监督方法自动构建超大规模词义标注平行语料库,避免了人工构建方法耗时、成本高的缺陷。
  5. 双语平行
    本课题将WordNet和HowNet有机结合,将各个语言分开训练,建立统一单语的词义分布。最后根据双语词性和语法关系,获取处双语之间的对齐方式和映射关系。
    四、项目研究技术路线
    1. 基于主题模型的词义训练
      本项目选用LDA的无参模型HDP,根据训练词义的迭代过程,自动调整词义的数量,选出有效的词义,有效避免了对冗余词义的处理工作。
    2. 用word2vec统一两种词义集合的表示
      hdp-wsi训练出的词义集合是以主题词语分布的形式表示,而人工词集是以同意词集的形式表示。为了将建立两者映射关系,我们采用word2vec统一两个集合的词义表示。
  6. 建立映射关系
    选用高斯距离和余弦值计算两个集合中每两个词义之间的相似度和相关度,根据排序和设置阈值建立映射关系。
    五、研究进度安排
    2015-06:细化方案,抽取小数据进行试验评判方案的可行性和准确度。本阶段着力研究理论并丰富计划细节,利用小数据试验提高准确度。
    2015-07 -- 2015-11:着力建立语料库,以覆盖面广的大语料为原料建立双语平行语料库。本阶段的重点是建立工程,优化时间和空间的开销,并增强工程的可移植性。
    2015-12 -- 2016-03:评审系统和工具进行评审,创作论文及期刊以及国内专利,并进行投递。
    六、项目组成员分工
    导师熊德意把握项目总方向,为项目实施提供理论和工程的指导。
    项目主持人张端风,负责控制项目进度,并安排项目的总调度。
    实验主干王欢明、张端风,全程控制实验进度,并整理实验细节与项目日志。
    英文语言文化指导侍季,负责评判理论算法的可行性,并实时追踪国际和国内最新成果与算法。
    三、学校提供条件(包括项目开展所需的实验实训情况、配套经费、相关扶持政策等)
  7. 实验室位置和机器
  8. 服务器
    四、预期成果
  9. 国内高水平期刊发表
  10. 申请国家技术专利
  11. 可提供高质量词义标注平行语料库
  12. 总结出系统的可行算法
    五、经费预算
    总经费(元) 20000 财政拨款/企业资助(元) 学校拨款(元)
    注:总经费、财政拨款、学校拨款按照规定金额填写,校企合作项目企业资助金额不少于3000元。
  13. 调研、差旅费
  14. 用于项目研发的元器件、软硬件测试、小型硬件购置费等
  15. 资料购置、打印、复印、印刷等费用
  16. 学生撰写与项目有关的论文版面费、申请专利费等