1.解析方式
(1)从字符串解析
1
2
3
|
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parse HTML into a doc.</p></body></html>" ;
Document doc = Jsoup.parse(html); |
(2)从URL获取解析
1
2
|
Document doc = Jsoup.connect( "http://example.com/" ).get();
String title = doc.title(); |
1
2
3
4
5
6
|
Document doc = Jsoup.connect( "http://example.com" )
.data( "query" , "Java" )
.userAgent( "Mozilla" )
.cookie( "auth" , "token" )
.timeout( 3000 )
.post();
|
(3)从文件解析
1
2
|
File input = new File( "/tmp/input.html" );
Document doc = Jsoup.parse(input, "UTF-8" , "http://example.com/" );
|
2.DOM方式遍历元素
(1)搜索元素
1
2
3
4
5
6
|
getElementById(String id) getElementByTag(String tag) getElementByClass(String className) getElementByAttribute(String key) siblingElements(), firstElementSibling(), lastElementSibling(), nextElementSibling(), previousElementSibling() parent(), children(), child( int index)
|
(2)获取元素数据
1
2
3
4
5
6
7
8
|
attr(String key) – 获取key属性 attributes() – 获取属性 id(), className(), classNames() text() – 获取文本内容 html() – 获取元素内部HTML内容 outerHtml() – 获取包括此元素的HTML内容 data() – 获取<srcipt>或<style>标签中的内容 tag(), tagName() |
3.选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)
(1)基本选择器
1
2
3
4
5
6
7
8
9
10
|
tagname: 搜索tag标签的元素 ns|tag: 搜索命名空间内tag标签的元素,如fb|name:<fb:name> #id: 搜索有指定id的元素 . class : 搜索有指定 class 的元素
[attribute]: 搜索有attrribute属性的元素 [^attri]: 搜索有以attri开头的属性的元素 [attr=value]: 搜索有指定属性及其属性值的元素 [attr^=value], [attr$=value], [attr*=value]: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/] [attr~=regex]: 搜索有指定attr属性,且其属性值符合regex正则表达式的元素 *: 搜索所有元素 |
(2)选择器组合
1
2
3
4
5
6
7
8
9
|
el#id: 同时指定标签名称和id el. class : 同时指定标签名称和 class
el[attr]: 同时指定标签名称和及其中所含属性的名称 上述 3 项的任意组合,如a[href].highlight
ancestor child: 包含,如div.content p,即搜索<div class =”content”>下含有<p>标签的元素
ancestor > child: 直接包含,如div.content > p,即搜索直属<div class = "content" >节点下的<p>标签元素;div.content > *,即搜索<div class = "content" >下的所有元素
siblingA + siblingB: 直接遍历,如div.head + div,即搜索<div class = "head" ><div>的元素,其中不再包含子元素
siblingA ~ siblingX: 遍历,如h1 ~ p,即<h1>下直接或间接有<p>的元素 el, el, el: 组合多个选择器,搜索满足其中一个选择器的元素 |
(3)伪选择器(条件选择器)
1
2
3
4
5
6
7
8
9
10
|
:lt(n): 搜索n号元素之前的元素 :gt(n): 搜索n号元素之后的元素 :eq(n): 搜索n号元素 :has(seletor): 搜索符合指定选择器的元素 :not(seletor): 搜索不符合指定选择器的元素 :contains(text): 搜索包含指定文本的元素,区分大小写 :containsOwn(text): 搜索直接指包含指定文本的元素 :matches(regex): 搜索符合指定正则表达式的元素 :matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素 注意:以上伪选择器的索引中,第一个元素位于索引 0 ,第二个元素位于索引 1 ,……
|
4.获取元素的属性、文本和HTML
1
2
3
|
获取元素的属性值:Node.attr(String key) 获取元素的文本,包括与其组合的子元素:Element.text() 获取HTML:Element.html()或Node.outerHtml() |
5.操作URL
1
2
|
Element.attr( "href" ) – 直接获取URL
Element.attr( "abs:href" )或Element.absUrl( "href" ) – 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)来指定基URL,否则获取的完整URL只会是空字符串
|
6.测试例子
1
2
|
li[ class =info] a[ class =Author] - 空格前后表示包含关系,即表示li里的a
div[ class =mod mod-main mod-lmain]:contains(教学反思) - div中包含 "教学反思" ,适合同时有多个同名DIV的情况
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
/* previousSibling()获取某标签前面的代码
nextSibling()获取某标签后的代码
如:
<form id=form1>
第一名:Lily <br/>
第二名:Tom <br/>
第三名:Peter <br/>
</form>
*/ Elements items = doc.select( "form[id=form1]" );
Elements prevs = items.select( "br" );
for (Element p : prevs){
String prevStr = p.previousSibling().toString().trim());
} |
1
2
3
4
5
6
7
8
9
10
11
12
13
|
/* 最常用的链接抓取
*/ String itemTag = "div[class=mydiv]" ;
String linkTag = "a"
Elements items = doc.select(itemTag); Elements links = items.select(linkTag); for (Element l : links){
String href = l.attr( "abs:href" ); //完整Href
String absHref = l.attr( "href" ); //相对路径
String text = l.text();
String title = l.attr( "title" );
} |
7.jsoup在线API
http://jsoup.org/apidocs/
jsoup:解析HTML用法小结的更多相关文章
-
jsoup解析HTML及简单实例
jsoup 中文参考文献 http://www.open-open.com/jsoup/ 本文将利用jsoup,简单实现网络抓取的功能,并给出一个小实例,该实例效果为:获取作者本人在博客园写的所 ...
-
[No000010]Ruby 中一些百分号(%)的用法小结
#Ruby 中一些百分号(%)的用法小结 #这篇文章主要介绍了Ruby 中一些百分号(%)的用法小结,需要的朋友可以参考下 what_frank_said = "Hello!"#% ...
-
TinyXML用法小结
TinyXML用法小结 1. 介绍 Tinyxml的官方网址:http://www.grinninglizard.com 官方介绍文档:http://www.grinninglizard.c ...
-
TinyXML用法小结2
参考:http://www.cnblogs.com/hgwang/p/5833638.html TinyXML用法小结 1. 介绍 Tinyxml的官方网址:http://www.grinn ...
-
Java爬虫系列三:使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
-
转载:Hadoop排序工具用法小结
本文转载自Silhouette的文章,原文地址:http://www.dreamingfish123.info/?p=1102 Hadoop排序工具用法小结 发表于 2014 年 8 月 25 日 由 ...
-
Android利用Jsoup解析html 开发网站客户端小记。
这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体 ...
-
[java] jsoup 解析网页获取省市区域信息
到国家统计局抓取数据, 到该class下解析数据 /** * jsoup解析网页 * @author xwolf * @date 2016-12-13 18:11 * @since V1.0.0 */ ...
-
C++ typedef用法小结 (※不能不看※)
C++ typedef用法小结 (※不能不看※) 第一.四个用途 用途一: 定义一种类型的别名,而不只是简单的宏替换.可以用作同时声明指针型的多个对象.比如:char* pa, pb; // 这多数不 ...
随机推荐
-
ios UILabel在storyBoard或xib中如何在每行文字不显示完就换行
大家知道怎么用代码让label中的文字换行,只需要 label.numberOfLines = 0; label.text = @"这是第一行啦啦啦啦,\n这是第二行啦啦,\n这是第三行&q ...
-
iPhone:4.7 5.5 4 3.5 对应的各个设备屏幕尺寸对应的像素及App上线信息
Shared App Information You can access these properties from the App Details page in the App Informat ...
-
接口测试第二课(Fiddler实现APP抓包)
Fiddler简介: Fiddler是强大且好用的Web调试工具之一,它能记录客户端和服务器的http和https请求,允许你监视,设置断点,甚至修改输入输出数 据. Fiddler 的运行机制其实就 ...
-
SLAM reference
Technical website: OpenSlam: http://openslam.org/ MRPT: http://www.mrpt.org/ Monocular SLAM: https:/ ...
-
android之listView定位到指定行同时隐藏输入键盘
帮别人该bug遇到的一个问题,记录下来. listView.setSelection(a); 这个方法可以让让你的listview定位到指定行 但是如果紧接着执行隐藏输入键盘的代码,则会有bug,这个 ...
-
Java 多条件复杂排序小结
前言 今天下午做了拼多多在牛客网上的在线笔试题,感觉自己的智商被鄙视到了···不过其中一道题的某一部分引起了我极大的兴趣,感觉可以总结一下,做好积累~ 题目的部分我拍照如下所示 这里面最复杂的就是第3 ...
-
thymeleaf标签使用方法总结
https://blog.csdn.net/quuqu/article/details/52511933 常用th标签https://www.cnblogs.com/suncj/p/4030393.h ...
-
PHP Architecture
http://www.laruence.com/2008/08/12/180.html
-
poj2524(简单并查集)
#include <iostream>#include <stdio.h>#include <string.h>#include <stdlib.h>u ...
-
Java中spring读取配置文件的几种方法
Spring读取配置XML文件分三步: 一.新建一个Java Bean: package springdemo; public class HelloBean { private String hel ...