文件名称:学习分类文本-颗粒系统的离散元素法分析仿真_-胡国明 pdf
文件大小:4.28MB
文件格式:PDF
更新时间:2024-06-29 11:58:12
自然语言
第六章 学习分类文本 模式识别是自然语言处理的一个核心部分。以-ed结尾的词往往是过去时态动词(第 5 章)。频繁使用will 是新闻文本的暗示(第 3 章)。这些可观察到的模式——词的结构和词 频——恰好与特定方面的含义关联,如:时态和主题。但我们怎么知道从哪里开始寻找,形 式的哪一方面关联含义的哪一方面? 本章的目标是要回答下列问题: 1. 我们怎样才能识别语言数据中能明显用于对其分类的特征? 2. 我们怎样才能构建语言模型,用于自动执行语言处理任务? 3. 从这些模型中我们可以学到哪些关于语言的知识? 一路上,我们将研究一些重要的机器学习技术,包括决策树、朴素贝叶斯分类器和最大 熵分类。我们会掩盖这些技术的数学和统计的基础,集中关注如何以及何时使用它们(更多 的技术背景知识见 6.9节)。在看这些方法之前,我们首先需要知道这个主题的范围十分广 泛。 6.16.16.16.1 有监督分类有监督分类有监督分类有监督分类 分类是为给定的输入选择正确的类标签的任务。在基本的分类任务中,每个输入被认为 是与所有其它输入隔离的,并且标签集是预先定义的。这里是分类任务的一些例子: � 判断一封电子邮件是否是垃圾邮件。 � 从一个固定的主题领域列表中,如“体育”、“技术”和“政治”,决定新闻报道的 主题是什么。 � 决定词 bank 给定的出现是用来指河的坡岸、一个金融机构、向一边倾斜的动作还 是在金融机构里的存储行为。 基本的分类任务有许多有趣的变种。例如:在多类分类中,每个实例可以分配多个标签; 在开放性分类中,标签集是事先没有定义的;在序列分类中,一个输入链表作为一个整体分 类。 如果分类的建立基于包含每个输入的正确标签的训练语料,被称为有监督分类。有监督 分类使用的框架图如图 6-1 所示: