第一章 词法和句法分析研究进展、现状及趋势
(从OneNote复制过来,所以格式有点问题)
-
句子级分析
-
词法分析
- 汉语分词
-
词性标注
-
方法
- 隐马尔科夫生成式模型
- 判别式的最大熵模型
- 支持向量机模型
- 结构感知器模型
- 条件随机场模型
- 基于深层神经网络的词性标注方法
-
进展
- 词性标注和句法分析联合建模
- 异构数据融合
- 基于深度学习的方法
-
方法
-
句法分析
-
用途
- 语言理解的需求
- 为其他NLP任务提供支持
- 提供语义分析的输入
-
任务
-
短语结构句法分析(短语结构和短语之间的层次)
- 基于上下文无关文法
- 概率上下文无关文法
-
依存句法分析(词汇与词汇间的相互依存关系)(浅层)
- 基于图的依存句法分析方法
- 基于转移的依存句法分析方法
- 多模型融合的依存句法分析方法
-
深层文法句法分析(利用深层文法对句子进行深层的句法及语义分析)
-
深层文法
- 词汇化树邻接文法LTAG
- 词汇功能文法LFG
- 组合范畴文法CCG
-
深层文法
- 基于深度学习的句法分析
-
短语结构句法分析(短语结构和短语之间的层次)
-
用途
-
词法分析
深度学习则把原子特征进行向量化,在利用多层神经元网络提取特征。所谓向量化就是把词、词性等用低维、连续实数空间上的向量来表示。
-
语义分析
- 目的:理解句子表达的真实语义
- 语义的表示形式尚未统一
-
技术:
- 语义角色标注(浅层)
- 基于逻辑表达的语义分析
-
NLP系统常采用的方式
- 级联:分词、词性标注、句法分析、 语义分析分别训练模型
- 联合模型:显著提高分析质量(人工标注信息多,任务间相互帮助)复杂度高速度慢
- 词法分析:句子(字序列)-> 词序列
- 句法分析:词序列 -> 树状结构(刻画词法和句法结构)
-
数据驱动的分析方法:
- 训练数据:人工标注的分词+词性语料+树库
- 自动训练构建词法和句法分析系统
- 产生众多符合的分析结果
- 如何找到正确的结果?
-
面临问题
-
词法分析
- 生词问题和词的定义
- 分词歧义
- 词性定义和词性兼类
-
语法分析
- 模型定义(句法树分值分解为子结构分值)
- 特征表示(什么特征表示子结构)
- 解码问题(获得分值最高的局法术)
- 训练算法(如何训练获取特征权重)
-
词法分析
-
分词方法 (index P6)
- 基于词典的最大匹配分词方法
- 全切分路径选择方法
- 基于字序列标注方法
- 基于转移的分词方法
-
技术展望和发展趋势
- 深度学习和传统方法相结合的问题
- 多粒度分词
- 面向非规范文本的分词
- 分词、新词发现(词语归一化)交互建模
- 面向非规范文本的词性标注
- 词性标注的数据标注问题
- 互联网文本分析和领域自适应问题