最近需要做一个爬取新闻网站的项目,但考虑到各个网站的搜索api都不同,且准确性较低,所以我想到了百度的高级搜索功能,于是就对其搜索api探索了一番。
以下就是我整理的百度api参数列表,可能不够全面,欢迎补充.
百度搜索API
基本链接1http://www.baidu.com/s?wd=关键字&cl=类型&pn=页码&ie=gb2312&rn=显示条数&tn=原站点
基本链接2https://www.baidu.com/s?q1=主关键词&q2=&q3=&q4=&gpc=stf&ft=&q5=&q6=news.sina.com.cn
cl: 类型,3网页,2图片
pn: 页码
ie: 编码
rn: 显示条数
q1: 包含以下全部的关键词
q2: 包含以下的完整关键词
q3: 包含以下任意一个关键词
q4: 不包括以下关键词
q5: 查询关键词位于 : 0(默认)任意位置,1 标题中,2 URL中
q6: 限定站点
gpc和ft应该是限定时间和文档格式
tn:表示源站点,基本没什么用,但我发现了一个神奇的参数baidurt,貌似是简版页面(爬虫首选!!)