平台地址: 一、标准列表 第一步还是去获取标准列表

时间:2022-01-01 07:52:10

上篇对“国家标准全文果然系统”的国标进行抓取,本篇对食品范围的标准果然系统“食品安适国家标准数据检索平台”进行抓取。

平台地点:

平台地址: 一、标准列表 第一步还是去获取标准列表

一、标准列表

第一步还是去获取标准列表,通过高级搜索,输入空盘问条件,则盘问出全部的标准记录。

平台地址: 一、标准列表 第一步还是去获取标准列表

平台地址: 一、标准列表 第一步还是去获取标准列表

这时候可以看到,列表页的URL仍然是。

差别于“国家标准全文果然系统”,,“食品安适国家标准数据检索平台”的请求大都是POST,即用户的大都操纵是POST差别参数到,处事按照POST的参数返回相应的页面。

那么要获取标准列表,则要POST特定参数到。POST哪些参数?可以通过检察源码,分析JS代码了解到。

更简单、准确的方法是,通过浏览器(火狐、谷歌、IE都可)的Web调试工具检察其POST提交的参数,例如盘问全部标准的POST数据如下:

平台地址: 一、标准列表 第一步还是去获取标准列表

二、标准详细信息

点击标准名称超链接,将打开标准详细信息页,页面URL为。

可见详细信息页通过GET请求获得,需要从列表页中解析到标准的GUID,然后GET相应的页面即可。解析GUID仍然使用正则表达式即可。

固然,该站点也可以通过POST请求获取到标准详细信息页,因为其源代码如下:

<a href="javascript:void(0);" onclick="goto(‘3B34B8D6-7164-4419-B308-6AF683E8B606‘,‘2‘)">食品安适国家标准 食品微生物学查验培养基和试剂的质量<font color=‘red‘></font>求(GB 4789.28-2013)</a>

平台地址: 一、标准列表 第一步还是去获取标准列表

标准详细信息的抓取,仍然通过HTML解析组件进行解析。

平台地址: 一、标准列表 第一步还是去获取标准列表

三、标准文件下载

下载标准PDF文件,点击“下载”链接获取文件。检察其源代码如下:

onclick="load(‘588072C8-F771-4F66-9B33-3BA4AF7C4540‘);

平台地址: 一、标准列表 第一步还是去获取标准列表

可知下载PDF文件时,POST请求到该URL:。

文件的GUID值和标准的GUID值差别,但仍然可以从页面中使用正则表达式解析出来。

至此,该站点的标准可以抓取到,对比“国家标准全文果然系统”,该站点标准爬取时,只需要改削GET请求为POST请求即可。