Outline:
(1) Graph-based Methods
(2) Transition-based Methods
(3) Neural Graph-based Methods
(4) Neural Transition-based Methods
(5) Applications
Points:
1. Fundamental NLP Pipeline: raw text -> word segmentation -> pos tagging -> named entity recognition -> syntactic->semantic
2. 自然语言句子级分析:
- 词法分析(lexical analysis):汉语分词(word segmentation或tokenization)、词性标注(part-of-speech tag)
- 句法分析(syntactic parsing):短语结构句法分析(phrase-structure syntactic parsing 或叫成分句法分析 constituent syntactic parsing)、依存句法分析(dependency syntactic parsing)、深层文法句法分析(比如词汇化树邻接文法LTAG、词汇功能文法LFG、组合范畴文法CCG)
- 语义分析(semantic parsing):语义角色标注(semantic role labeling)、基于逻辑表达的语义分析等
3. 词法分析是将输入句子从字序列转化为词和词性序列,句法分析将输入句子从词序列形式转化为树状结构。
4. 短语结构句法分析(或是成分句法分析)作用是识别出句子中的短语结构以及短语之间的层次句法关系。依存句法分析作用是识别句子中词汇与词汇之间的相互依存关系,是浅层句法分析。
5. 词法分析主要面临的几个问题:
- 词的定义和生词问题
- 分词歧义问题
- 词性定义和词性兼类问题
6. 句法分析主要面临的几个问题:
- 模型定义问题
- 特征表示问题
- 解码问题
- 训练算法问题
7. 主要分词方法:
- 基于词典的最大匹配分词方法:缺点是严重依赖词典,但是简单、速度快。
- 全切分路径选择方法:其思想是所有可能的切分表示为一个有向无环图,每一个可能的
切分词语作为图中的一个节点。有向图中任何一个从起点到终点的路径构成一个句子的词语切分,路径数目随着句子的长度指数增长。这种方法的目标是从指数级搜索空间中求解出一条最优路径。
- 基于字序列标注的方法:对句子中的每个字进行标记,如四符号标记{B,I,E,S},分别表示当前字是一个字的开始、中间、结尾,以及独立成词。还有很多不同的序列标注模型,如最大熵、SVM、结构化感知器、CRF等。
- 基于转移的分词方法:借鉴基于转移的依存句法分析的思路,从左到右扫描句子中的每一个字,将分词过程转化为一个动作序列,使用柱搜索获得最优动作序列。
8. 分词目前面临的挑战:
- 分词歧义消解
- 未登录词(新词)识别
- 错别字、谐音字规范化
- 分词粒度问题
9. 词性标注的主要方法:最初采用隐马尔科夫生成式模型,然后是判别式的最大熵模型、支持向量机模型,目前通常采用结构感知器模型和条件随机场模型。
10. 依存句法分析
- 基于图的依存句法分析:从完全有向图中寻找最大生成树。一棵依存树的分值由构成依存树的几种子树的分值累加得到。基于图的方法通常采用基于动态规划的解码算法,但也有用柱搜索(beam search)来提高效率的。
- 基于转移的依存句法分析:将依存树的构成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。采用全局线性模型来决定下一个动作,一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。模型通过贪心搜索或是柱搜索等解码算法找到近似最优的依存树。
- 多模型融合的依存句法分析:基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。两种方法各有优势,因此,使用不同的方法融合两种模型的优势。常见的方法有:stacked learning;对多个模型的结果加权后重新解码(re-parsing);从训练语料中多次抽样训练多个模型(bagging)。
11. 短语结构句法分析的研究基于上下文无关文法(context free grammar, CFG),四元组<T, N, S, R>。其中 T 表示终结符的集合(即词的集合),N 表示非终结符的集合(即文法标注和词性标记的集合),S 表示充当句法树根节点的特殊非终结符,而 R 表示文法规则的集合,其中每条文法规则可以表示为Ni -> γ,这里的γ表示由非终结符与终结符组成的一个序列(允许为空)。
12. 基于深度学习的句法分析:把原子特征进行向量化,在利用多层神经元网络提取特征。所谓向量化就是把词、词性等用低维、连续实数空间上的向量来表示,从而便于寻找特征组合与表示,同时容易进行计算。
13. 语义分析:词汇语义分析、句子级语义分析以及篇章级语义分析。
- 词汇级语义分析:关注如何获取或区别单词的语义;
- 句子级语义分析:关注如何分析整个句子所表达的语义;
- 篇章级语义分析:研究自然语言文本的内在结构并理解文本单元间的语义关系。
14. 词汇级语义分析的研究内容:
- 词义消歧:(1)词典的构建;(2)上下文的建模
- 词义表示和学习:(1)one-hot表示方法;(2)词嵌入(Word Embedding,又叫词向量)
15. 句子级语义分析:
- 浅层语义分析 - 语义角色标注(semantic role labeling, SRL):找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等)。根据谓词类别的不同,SRL分为动词性谓词SRL和名词性谓词SRL。
- 深层语义分析(有时直接称为语义分析,semantic parsing):浅层主要围绕句子中的谓词,而深层是将整个句子转化为某种形式化表示,如谓词逻辑表达式(lambda演算表达式)、基于依存的组合式语义表达式(dependency-based compositional semantic representation)等。
16. 篇章级语义分析:篇章结构旨在分析出层次结构和语义关系,每个篇章结构由连接词,两个相应的论元,以及篇章关系类别构成。
- 显示篇章关系:连接词存在于文本中。
- 隐式篇章关系:连接词不存在于文本中,但可以根据上下文语境推导出合适的连接词。
17. 词义消歧方法分为三类:
- 基于词典的词义消歧:给定某个待消解词及其上下文,计算语义词典中各个词义的定义与上下文之间的覆盖度,选择覆盖度最大的作为待消解词在其上下文下的正确词义。
- 有监督词义消歧:使用词义标注语料来建立消歧模型,研究重点在于特征的表示。常见的上下文特征有三个类型:(1)词汇特征通常指待消解词上下窗口内出现的词及其词性;(2)句法特征利用待消解词在上下文中的句法关系特征,如动-宾关系;(3)语义特征在句法关系的基础上添加了语义类信息,如主/宾语中心词的语义类,甚至还可以是语义角色标注类信息。
- 无监督和半监督词义消歧:依赖于一个大规模的未标注语料,以及在该语料上的句法分析结果。
18. 语义角色标注:给定一个谓词及其所在的句子,找出句子中该谓词的相应语义角色成分。
- 基于成分句法树的语义角色标注
- 基于依存句法树的语义角色标注
19. 基于成分句法树的语义角色标注,以句法树的成分为单元,判断其是否担当给定谓词的语义角色
- 角色剪枝:通过制定一些启发式规则,过滤掉那些不可能担当角色的成分;
- 角色识别:在角色剪枝的基础上,构建一个二元分类器,即识别其是或不是给定谓词的语义角色;
- 角色分类:对那些是语义角色的成分,进一步采用一个多元分类器,判断其角色类别。
20. 语义角色标注的研究热点是如何构建角色识别和角色分类器。常用方法:
- 基于特征向量的方法 - 最具代表性的7个特征:成分类型(constituent type)、谓词子类框架(subcategorization)、成分与谓词之间的路径(parse tree path)、成分与谓词的位置关系(constituent position)、谓词语态(predicate voice)、成分中心词(constituent head word)和谓词本身(predicate)。
- 基于树核的方法:核函数的方法挖掘隐藏于以句法结构中的特征。
总结:两种方法的目的都是尽可能准确地计算两个对象之间的相似度。基于特征向量的方法将结构化信息转化为平面信息,方法简单有效;缺点是在制定特征模板的同时,丢弃了一些结构化信息。而基于树核的方法有效解决了特征维数过大的问题,缺点是在利用结构化信息的同时会包含噪音信息,另外计算开销远大于基于特征向量的方法。
21. 句子级深层语义分析:
- 基于知识库的语义分析
- 有监督语义分析:同步上下文无关文法(SCFG)、CCG文法
- 半监督或无监督语义分析
22. 篇章分析:
- 基于Penn Discourse TreeBank的篇章分析 - 四个任务:(1)篇章连接词识别(2)论元(Argument)识别(3)显示篇章关系识别(4)隐式篇章关系识别
- 基于RST的篇章分析 - 两个任务:(1)篇章基本单元(Element Discourse Unit, 简称EDU)识别(2)篇章结构生成
- 中文篇章分析:(1)基于RST体系的标注(2)基于PDTB体系的标注(3)基于连接依存树的标注。