文件名称:导入数据-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:33
RapidMiner
图 12.2 安装最多的扩展工具 12.6 获取数据 本章使用加州大学欧文分校机器学习库中的一个手机短信数据集,包含 5574 条短信 记录。您可以获取关于此短信数据集的更多信息,并在此处下载: – http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection 此数据集中有 747 条垃圾短信被标记为“spam”,其余非垃圾短信被标记为“ham”, 该数据集是 tab 分隔的文本文件,每行表示一条短信记录,文件为 UTF-8 编码。 本章资源压缩包中提供此数据集的压缩包 smsspamcollection.zip 12.7 导入数据 以导入 csv 方式导入 SMSSpamCollection 文件 注意该文件以 tab 分隔符分隔,并且内容包含双引号,需要在导入向导的 2/5 步骤做 适当处理:Column Separation 选择“Tab”,关闭 Use Quotes 的复选框 导入向导第四步 – 改变属性 att1 的角色为“label”,这样 Rapidminer 便知道我们将使用此属性做预测。 – 改变属性 att2 的类型,由“polynomial”改变为“text”,这样告诉 RapidMiner 此属性 包含我们希望处理的文本数据。