uipath数据爬取(结构化数据)为了更好地理解如何利用数据抓取功能,我们创建一个自动化项目,该项目从天猫中提取一些特定信息并将其写入Excel电子表格。
注意:
建议在Internet Explorer 11及更高版本,Mozilla Firefox 50或更高版本或最新版本的Google Chrome上运行网络自动化。
下面我们从天猫获取华为手机的相关手机名称,其URL以及价格。你可以执行以下操作:
- 打开任意浏览器并导航到天猫。
- 在“ 天猫搜索框中,键入“华为手机”,然后显示搜索结果如下图。想要的数据就是图中圈中的手机名称和价格、地址。
3.在Studio中,创建一个New Blank Process。
4.在“ Activities”面板中,将“ OpenBrowser”活动添加到“ 设计器”面板中,然后在“ URL”字段中,将网页的URL粘贴到搜索结果中。在我们的示例中,URL是:"https://list.tmall.com/search_product.htm?q=%BB%AA%CE%AA%CA%D6%BB%FA&type=p&vmarket=&spm=875.7931836%2FB.a2227oh.d100&from=mallfp..pc_1_searchbutton"。
5.在“ DESIGN”功能区选项卡的“ 向导”组中,单击“ Data Scraping”。显示提取向导。
6.在Extract Wizard向导之后,点击next,按照步骤在Web浏览器中选取你想要的数据字段
7. 选中“ ExtractURL”复选框,然后将列标题的名称更改为相关的名称,此处为“手机名称”。
8.单击next。在“ 预览数据”向导步骤中显示数据的预览。在下图中,可以点击Extract Correlated data 获取更多的数据信息,也可以设置获取的最大数据条目数。
9.点击FINISH。显示“ 指示下一个链接”窗口,提示您指示如果数据跨越一页以上,则单击“ 下一步”按钮或箭头。
10.单击yes,在下图中对应的属性面板中,ExtractDataTable已经自动产生。是DataTable类型
11.在“ 变量”面板中,将自动生成的ExtractDataTable变量的范围更改为Sequence。这样做可以使变量在其当前范围(即数据收集序列)之外可用。
12.在“ Data Scraping”序列下添加一个Excel Application Scope组件活动。
13.在“ Excel应用程序范围”活动的“ 属性”面板中的“ 工作簿路径”字段中输入excel地址,或者在下图红圈中点击输入一个已经创建好的excel表格。
14.在“ Excel Application Scope”活动的“ do”序列中,添加“ 写入范围”活动,然后在“ 属性”面板中:
- 在数据表字段中,添加ExtractDataTable变量。
- 选中“ AddHeaders”复选框,以在输出中包括列名称。
15.最终项目应如以下屏幕截图所示:
最后按run执行项目。
参考英文文档链接:https://docs.uipath.com/studio/docs/example-of-using-data-scraping