【文件属性】:
文件名称:example-clinicaltrails-morphio:来自Clinicaltrials.gov的临床试验数据
文件大小:13KB
文件格式:ZIP
更新时间:2021-05-02 20:40:51
Python
opentrials-clinicaltrailsgov-data
这是在上运行的刮板。 要开始使用,。
文件资料
配置
用于配置刮板的环境变量:
DATE_FROM
获取带有最后更新标记=>此日期的试用版。
DATE_TO
取得最后更新标记<=此日期的试用版。
DOWNLOAD_DELAY
我们正在对Clinicaltrials.gov提出的要求。
工作流程
我们需要下载大约20万个页面,并且要对源Web服务器保持礼貌:
延迟1秒-> 60小时
延迟0.5秒-> 30小时(比morph.io可以为我们做的更多)
等等
因此,我们可以逐年手动抓取,然后自动提取上一年的更新:
1年(60000页)+ 1s延迟-> 32小时
1年(60000页)+ 0.5s延迟-> 16小时
1年(60000页)+ 0.25s延迟-> 8小时
等等
刮刮一年的建议设置:
DATE_FRO