文本挖掘概览-tinyxml指南[中文]

时间:2024-07-04 16:39:32
【文件属性】:

文件名称:文本挖掘概览-tinyxml指南[中文]

文件大小:6.46MB

文件格式:PDF

更新时间:2024-07-04 16:39:32

RapidMiner

第12章 文本挖掘 12.1 应用场景  垃圾短信、邮件检测  语言种类检测(如:Google 翻译)  客户反馈分析、微博评论情感分析  … 12.2 学习目标 在学习完本章后,您应能够:  解释什么是文本挖掘、如何使用文本挖掘,以及使用文本挖掘有哪些好处。  识别文本可能采取的各种格式,以便进行文本挖掘。  连接至文本,并将其导入为文本挖掘模型的数据来源。  在 RapidMiner 中开发一个文本挖掘模型,其中包括常用的文本解析操作符,例如 tokenization、stop word filtering 等。  对文本挖掘结果应用其他数据挖掘模型,以便根据文本分析结果预测或分类。 12.3 文本挖掘概览 本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的 一个重要主题。我们将建立一个 RapidMiner 挖掘流程,来学习垃圾短信和我们实际想阅 读的短信之间的区别。然后我们将应用此学习到的模型到新的短信中,来确定其是否为垃 圾短信。垃圾短信是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃 圾短信分类的相同的技术可以在许多其他文本挖掘领域中使用。   以下为我们主要执行的挖掘步骤: – 安装文本挖掘插件 – 加载数据集到 RapidMiner 中 – 检查这些文本 – 处理这些文本 – 使用 Naïve Bayes 算法构造一个文本分类模型 – 验证模型 – 应用模型到未分类的数据中


网友评论