1、什么是Jsoup?
简单说就是解析网页的东西。
Jsoup官方网站:Jsoup
2、解析和遍历一个html文档
3、Demo
1、待解析的url=’http://www.cailianpress.com/’
查看网页源码我们看到,这里是网页部分源码
下面就解析出每条内容出来
2、然后我们的代码是这样的
import java.io.IOException;
import org.apache.commons.lang.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Test {
public static void main(String[] args) {
try {
Document doc = Jsoup
.connect("http://www.cailianpress.com/")
.userAgent(
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31")
.get();
//System.out.println(doc.html());
Elements listDiv = doc.getElementsByAttributeValue("class", "content");
//Elements listDiv1 = doc.getElementsByAttributeValue("class", "content recommend ");
//for (Element element : listDiv1) {
//listDiv.add(element);
//}
Elements listDiv2 = doc.getElementsByAttributeValue("class", "content recommend bold");
for (Element element : listDiv2) {
listDiv.add(element);
}
// System.out.println(listDiv.size());
for (Element element : listDiv) {
if (StringUtils.isNotEmpty(element.html())) {
System.out.println(element.html());
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
运行就得到: