文件名称:google,baidu,bing网页搜索(java实现)
文件大小:67KB
文件格式:7Z
更新时间:2015-01-03 09:06:54
google baidu bing http java
这个程序的功能是利用常用的搜索引擎搜索关键词获得搜索结果,然后访问每个搜索结果将排在前面的所有网页的文本信息全部抓下来。 程序采用多线程(不超过20个,保证不影响其他程序)和超时设置(默认10秒),自己觉得挺好用的。 包括google网页搜索(GoogleQuery.java) baidu网页搜索(BaiduQuery.java) bing网页搜索(BingQuery.java) 三种主流搜索引擎的java调用。 其中google和baidu搜索采用http请求实现,bing使用bing java sdk实现。bing搜索需要一个微软的appid,可以用我的,也可以自己去免费申请。bing会限制每个appid的每天查询次数。 google和baidu的结果很好,bing的服务器好像常常连不上去。。。 google实现的时候尤其需要一个user-agent域,可以直接用我的firefox9.0设置也可以自己查找相应的user agent字符串替换(在HtmlDownloader.java中)。
【文件预览】:
bing-search-java-sdk.jar
web_search
----BingSearcher.java(3KB)
----GoogleQuery.java(2KB)
----HtmlDownloader.java(4KB)
----BaiduQuery.java(2KB)
----BingQuery.java(918B)
html_parsing
----HtmlParser.java(88B)
----TagRemover.java(1KB)