【文件属性】:
文件名称:转码后的信息-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2021-06-14 22:52:56
RapidMiner
图 13.16 数据输出表格
这时候我们终止流程运行,去掉断点,返回到循环里面来,我们调用“Extract Information”
操作符,参数设置以字符串匹配的方式,设置如图 13.17 所示
图 13.17 参数设置获取 XML 信息
继续对信息进行转码,调用“Documents to Data”和“Unescape HTML”操作符,text 取名
content,转码 attribute 设置为 xml,点击运行,显示结果如图 13.18
图 13.18 转码后的信息
这里面的信息就包含的文章的日期,标题,ISBN,作者,机构的信息,后面我们会把这个
信息存储到硬盘上,作为我们中间分析的结果。
第三步:存储爬取的数据
将每次爬取的页数用%{pageSize}代替,添加“set Macro”设置宏操作符,参数设置“macro”