文件名称:转码后的信息-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:36
RapidMiner
图 13.16 数据输出表格 这时候我们终止流程运行,去掉断点,返回到循环里面来,我们调用“Extract Information” 操作符,参数设置以字符串匹配的方式,设置如图 13.17 所示 图 13.17 参数设置获取 XML 信息 继续对信息进行转码,调用“Documents to Data”和“Unescape HTML”操作符,text 取名 content,转码 attribute 设置为 xml,点击运行,显示结果如图 13.18 图 13.18 转码后的信息 这里面的信息就包含的文章的日期,标题,ISBN,作者,机构的信息,后面我们会把这个 信息存储到硬盘上,作为我们中间分析的结果。 第三步:存储爬取的数据 将每次爬取的页数用%{pageSize}代替,添加“set Macro”设置宏操作符,参数设置“macro”