jsoup获取文档类示例

 import java.io.IOException;

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.jsoup.nodes.Element;

 import org.jsoup.select.Elements;

 public class WyCrawler {

     public static void main(String[] args) {

         try {

             Document document = Jsoup.connect("http://某网页").timeout(3000).get();

             String selector = "li>div[class=titleBar clearfix]>h3>a";

             Elements elements = document.select(selector);

             for(Element element:elements){

 //                System.out.println(element.text());

                 String url = element.absUrl("href");

                 Document document2 = Jsoup.connect(url).get();

                 Elements elements2 = document2.select("#endText");

                 for(Element element2:elements2){

                     System.out.println(element2.text());

                 }

             }

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

 }

上面是如何爬取超链接里的内容，下面的比较简单

 import java.io.IOException;

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.jsoup.nodes.Element;

 import org.jsoup.select.Elements;

 public class Test {

     public static void main(String[] args) {

         try {

             Document document = Jsoup.connect("http://www.某网页.com/").get();

             //获取内容

 //            String selector = "div[class=panel panel20 post-item post-box]>div[class=item-detail]>div[class=item-content]";

 //            Elements elements = document.select(selector);

 //            for(Element element:elements){

 //                System.out.println(element.text());

 //            }

             //获取标题

 //            String selector2 = "div[class=panel panel20 post-item post-box]>div[class=item-detail]>h2[class=item-title]";

 //            Elements elements = document.select(selector2);

 //            for(Element element:elements){

 //                System.out.println(element.text());

 //            }

             //综合写法，标题内容一起获取

             String selector = "div[class=panel panel20 post-item post-box]>div[class=item-detail]";

             Elements elements = document.select(selector);

             for(Element element:elements){

                 Elements titles = element.select("div[class=item-title]");

                 Elements content = element.select("h2[class=item-content]");

                 System.out.println(titles.text()+"\n"+content.text());

             }

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

 }

秒客网

jsoup获取文档类示例

相关文章