学习分类文本-颗粒系统的离散元素法分析仿真

【文件属性】：

文件名称：学习分类文本-颗粒系统的离散元素法分析仿真_-胡国明 pdf

文件大小：4.28MB

文件格式：PDF

更新时间：2024-06-29 11:58:12

自然语言

第六章学习分类文本模式识别是自然语言处理的一个核心部分。以-ed结尾的词往往是过去时态动词（第 5 章）。频繁使用will 是新闻文本的暗示（第 3 章）。这些可观察到的模式——词的结构和词频——恰好与特定方面的含义关联，如：时态和主题。但我们怎么知道从哪里开始寻找，形式的哪一方面关联含义的哪一方面？本章的目标是要回答下列问题： 1. 我们怎样才能识别语言数据中能明显用于对其分类的特征？ 2. 我们怎样才能构建语言模型，用于自动执行语言处理任务？ 3. 从这些模型中我们可以学到哪些关于语言的知识？一路上，我们将研究一些重要的机器学习技术，包括决策树、朴素贝叶斯分类器和最大熵分类。我们会掩盖这些技术的数学和统计的基础，集中关注如何以及何时使用它们（更多的技术背景知识见 6.9节）。在看这些方法之前，我们首先需要知道这个主题的范围十分广泛。 6.16.16.16.1 有监督分类有监督分类有监督分类有监督分类分类是为给定的输入选择正确的类标签的任务。在基本的分类任务中，每个输入被认为是与所有其它输入隔离的，并且标签集是预先定义的。这里是分类任务的一些例子： � 判断一封电子邮件是否是垃圾邮件。 � 从一个固定的主题领域列表中，如“体育”、“技术”和“政治”，决定新闻报道的主题是什么。 � 决定词 bank 给定的出现是用来指河的坡岸、一个金融机构、向一边倾斜的动作还是在金融机构里的存储行为。基本的分类任务有许多有趣的变种。例如：在多类分类中，每个实例可以分配多个标签；在开放性分类中，标签集是事先没有定义的；在序列分类中，一个输入链表作为一个整体分类。如果分类的建立基于包含每个输入的正确标签的训练语料，被称为有监督分类。有监督分类使用的框架图如图 6-1 所示：

立即下载

秒客网

学习分类文本-颗粒系统的离散元素法分析仿真_-胡国明 pdf

网友评论

相关文章