jsoup这个工具用于抓取并解析网页,用起来也比较简单,语法上与Jquery类似,基本写法如下:
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://www.oschina.net/");
Elements links = doc.select("a[href]"); // 链接
Elements pngs = doc.select("img[src$=.png]"); // 所有 png 的图片
Element masthead = doc.select("div.masthead").first();// div with class="masthead"
Elements resultLinks = doc.select("h3.r > a"); // direct a after h3