阅读《2016年中文信息处理发展报告》笔记(1)

时间:2020-12-10 06:48:00

第一章 词法和句法分析研究进展、现状及趋势


(从OneNote复制过来,所以格式有点问题)

  1. 句子级分析
    1. 词法分析
      1. 汉语分词
      2. 词性标注
        1. 方法
          1. 隐马尔科夫生成式模型
          2. 判别式的最大熵模型
          3. 支持向量机模型
          4.  结构感知器模型
          5.  条件随机场模型
          6. 基于深层神经网络的词性标注方法
        2. 进展
          1. 词性标注和句法分析联合建模
          2. 异构数据融合
          3. 基于深度学习的方法
    2. 句法分析
      1. 用途
        1. 语言理解的需求
        2. 为其他NLP任务提供支持
        3. 提供语义分析的输入
      2. 任务
        1. 短语结构句法分析(短语结构和短语之间的层次)
          1. 基于上下文无关文法
          2. 概率上下文无关文法
        2. 依存句法分析(词汇与词汇间的相互依存关系)(浅层)
          1. 基于图的依存句法分析方法
          2. 基于转移的依存句法分析方法
          3. 多模型融合的依存句法分析方法
        3. 深层文法句法分析(利用深层文法对句子进行深层的句法及语义分析)
          1. 深层文法
            1. 词汇化树邻接文法LTAG
            2. 词汇功能文法LFG
            3. 组合范畴文法CCG
        4. 基于深度学习的句法分析

深度学习则把原子特征进行向量化,在利用多层神经元网络提取特征。所谓向量化就是把词、词性等用低维、连续实数空间上的向量来表示。

  1. 语义分析
    1. 目的:理解句子表达的真实语义
    2.  语义的表示形式尚未统一
    3. 技术:
      1. 语义角色标注(浅层)
      2. 基于逻辑表达的语义分析
  1. NLP系统常采用的方式
    1. 级联:分词、词性标注、句法分析、 语义分析分别训练模型
    2. 联合模型:显著提高分析质量(人工标注信息多,任务间相互帮助)复杂度高速度慢
  2. 词法分析:句子(字序列)-> 词序列
  3. 句法分析:词序列 -> 树状结构(刻画词法和句法结构)
  4. 数据驱动的分析方法:
    1. 训练数据:人工标注的分词+词性语料+树库
    2. 自动训练构建词法和句法分析系统
    3. 产生众多符合的分析结果
    4. 如何找到正确的结果?
  5. 面临问题
    1. 词法分析
      1. 生词问题和词的定义
      2. 分词歧义
      3. 词性定义和词性兼类
    2. 语法分析
      1. 模型定义(句法树分值分解为子结构分值)
      2. 特征表示(什么特征表示子结构)
      3. 解码问题(获得分值最高的局法术)
      4. 训练算法(如何训练获取特征权重)
  6. 分词方法 (index P6
    1. 基于词典的最大匹配分词方法
    2. 全切分路径选择方法
    3. 基于字序列标注方法
    4. 基于转移的分词方法
  7. 技术展望和发展趋势
    1. 深度学习和传统方法相结合的问题
    2. 多粒度分词
    3. 面向非规范文本的分词
    4. 分词、新词发现(词语归一化)交互建模
    5. 面向非规范文本的词性标注
    6. 词性标注的数据标注问题
    7. 互联网文本分析和领域自适应问题