阅读《2016年中文信息处理发展报告》笔记(2)

时间:2022-05-19 06:46:50

第二章 语义分析研究进展、现状及趋势


  1. 语义分析
    1. 定义:运用各种机器学习方法,学习理解一段文本的语义内容。
    2. 分类
      1. 词汇级:获取区分单词语义
        1. 词义消歧
          1. 在词典中描述词语的意义
          2. 在语料中进行词义的自动消歧
          3. 问题
            1. 词典的构建
            2. 上下文的建模
        2. 词义表示和学习
          1. One-hot表示法:
            1. 方法:把词表示为一个很长的向量,向量的维度是词表的大小,绝大多数元素为0,只有一个维度为1,该维度即为当前词。
            2. 问题:任意两个词都是孤立的,看不出两者关系。
          2.  Word embedding词嵌入法:
            1. 方法通过训练将某种语言中的没歌词映射成一个固定维数的向量,形成词向量空间,向量可视为一个点,引入“距离”表示词间相似性。
      2. 句子级:句子表达的语义
        1. 浅层语义分析
          1. 语义角色标注SRL(以谓词为中心)
            1. 核心语义角色who
            2. 附属语义角色where when how why
            3. 分类
              1. 动词性谓词SRL
              2. 名词性谓词SRL
            4.  严重依赖于词法分析结果
        2. 深层语义分析(句子形式化)
          1. 谓词逻辑表达式
          2. 基于依存的组合式语义表达式
          3. 问题:
            1. 普通文本到实体、关系谓词之间的映射
            2. 面向开放领域的语义分析
  • 注:谓词是用来描述或判定客体性质、特征或者客体之间关系的词项。
篇章级:文本的内在结构和文本单元间的语义关系
  1. 显式篇章关系:连接词存在于文本
  2. 隐式篇章关系:根据上下文语境推倒连接词
目标
  1. 简历有效的模型和系统
  2. 实现在各个语言单位的自动语义分析
  3. 理解整个文本的真实语义
技术方法
  1. 词义消歧
    1. 基于词典的词义消歧:消歧性能差
    2. 有监督词义消歧:使用词义标注语料建立消歧模型,重点是特征的表示
    3. 无监督或半监督词义消歧:无需大规模人工标注数据,依赖于大规模未标注语料,及该语料的句法分析结果。
  2. 词嵌入学习:词嵌入的学习通常与语言模型是捆绑在一起的,即训练语言模型的同时也学习和优化了词嵌入。
  3. 语义角色标注:即给定一个谓词及其所在的句子,找出句子中该谓词的相应语义角色成分。角色识别和角色分类过程中,计算两个对象之间的相似度。
    1. 角色剪枝:制定启发式规则,过滤非角色成分
    2. 角色识别:二元分类器,判定是否给定谓词的语义角色
    3. 角色分类:多元分类器,判断角色类别
  1. 句子级深层语义分析方法
    1. 基于知识库的语义分析
    2. 有监督的语义分析
    3. 半监督或无监督的语义分析:EM算法
  2. 篇章分析(初始阶段)
    1. 基于Penn Discourse TreeBank的篇章分析
  • PDTB是最大的篇章语料库)
  • 论元带有论元角色的体词性成分而论元角色是由谓词根据其与相关的名词短语之间语义关系而指派给这些名词短语的语义角色即与动词连用的论元在与动词所表示的动作或状态里扮演的语义角色。
  1. 篇章连接词识别
  2. 论元识别
  3. 显式篇章关系识别
  4. 隐式篇章关系识别
  1. 基于RST的篇章分析
    1. 篇章基本单元(EDU)识别
    2. 篇章结构生成
  2. 中文篇章分析
  • 主要在语料资源建设方面
  1. 基于PDTB体系的标注
  2. 基于RST体系的标注
  3. 基于连接依存书的标注
  • 苏州大学发布了中文篇章分析语料(Chinese Tiscourse TreebankCDTB(自顶向下的标注策略,先找上层关系,递归地对切分后的内容进行标注)
  1. 语法分析的发展趋势
    1. 短语、句嵌入学习
    2. 基于句子级语义分析的篇章融合
    3. 中文篇章分析
    4. 非规范文本的语义分析