导入数据-tinyxml指南[中文]

时间:2024-07-04 16:39:33
【文件属性】:

文件名称:导入数据-tinyxml指南[中文]

文件大小:6.46MB

文件格式:PDF

更新时间:2024-07-04 16:39:33

RapidMiner

图 12.2 安装最多的扩展工具 12.6 获取数据 本章使用加州大学欧文分校机器学习库中的一个手机短信数据集,包含 5574 条短信 记录。您可以获取关于此短信数据集的更多信息,并在此处下载: – http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection   此数据集中有 747 条垃圾短信被标记为“spam”,其余非垃圾短信被标记为“ham”, 该数据集是 tab 分隔的文本文件,每行表示一条短信记录,文件为 UTF-8 编码。   本章资源压缩包中提供此数据集的压缩包 smsspamcollection.zip 12.7 导入数据 以导入 csv 方式导入 SMSSpamCollection 文件   注意该文件以 tab 分隔符分隔,并且内容包含双引号,需要在导入向导的 2/5 步骤做 适当处理:Column Separation 选择“Tab”,关闭 Use Quotes 的复选框   导入向导第四步 – 改变属性 att1 的角色为“label”,这样 Rapidminer 便知道我们将使用此属性做预测。 – 改变属性 att2 的类型,由“polynomial”改变为“text”,这样告诉 RapidMiner 此属性 包含我们希望处理的文本数据。


网友评论