爬取网页内容java

时间:2021-03-27 23:17:17

下面介绍的这个方法只是作为抛砖引玉:根据网页URL就可以抓取其中的内容

/**
* @title getHtmlResourceByUrl
* @param url 网址
* @param encoding 编码
* @return String 返回类型
*/
public static String getHtmlResourceByUrl(String url, String encoding) {
StringBuffer buffer = new StringBuffer();
try {
//建立网络连接 异常捕获
URL urlObj = new URL(url);
//打开网络连接
URLConnection urlconn = urlObj.openConnection();
//IO流
InputStreamReader in = new InputStreamReader(urlconn.getInputStream(), encoding);
//建立缓存
BufferedReader bfr = new BufferedReader(in);
//临时文件
String line = null;
//读取
while((line = bfr.readLine()) != null) {
buffer.append(line);
} } catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally { } return buffer.toString();
} public static void main(String[] args) {
String info = getHtmlResourceByUrl("http://www.qq.com", "gbk");
System.out.println(info);
}

大家可以直接拿过去运行即可看到效果!