HtmlParser基础教程

时间:2022-03-05 01:41:50

1、相关资料

官方文档:http://htmlparser.sourceforge.net/samples.html

API:http://htmlparser.sourceforge.net/javadoc/index.html

其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。

2、使用HtmlPaser的关键步骤

(1)通过Parser类创建一个解释器

(2)创建Filter或者Visitor

(3)使用parser根据filter或者visitor来取得所有符合条件的节点

(4)对节点内容进行处理

3、使用Parser的构造函数创建解释器

Parser() 

          Zero argument constructor.
Parser(Lexer lexer) 

          Construct a parser using the provided lexer.
Parser(Lexer lexer, ParserFeedback fb) 

          Construct a parser using the provided lexer and feedback object.
Parser(String resource) 

          Creates a Parser object with the location of the resource (URL or file).
Parser(String resource, ParserFeedback feedback) 

          Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in.
Parser(URLConnection connection) 

          Construct a parser using the provided URLConnection.
Parser(URLConnection connection, ParserFeedback fb) 

          Constructor for custom HTTP access.

对于大多数使用者来说,使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser,或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单,是针对调试和跟踪分析过程的,一般不需要改变。而使用Lexer则是一个相对比较高级的话题,放到以后再讨论吧。

        这里比较有趣的一点是,如果需要设置页面的编码方式的话,不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说,好像这是应该用得比较多的一个方法。

4、HtmlPaser使用Node对象保存各节点信息

HtmlParser基础教程

(1)访问各个节点的方法

Node getParent ():取得父节点

NodeList getChildren ():取得子节点的列表

Node getFirstChild ():取得第一个子节点

Node getLastChild ():取得最后一个子节点

Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)

Node getNextSibling ():取得下一个兄弟节点

(2)取得Node内容的函数

String getText ():取得文本

String toPlainTextString():取得纯文本信息。

String toHtml () :取得HTML信息(原始HTML)

String toHtml (boolean verbatim):取得HTML信息(原始HTML)

String toString ():取得字符串信息(原始HTML)

Page getPage ():取得这个Node对应的Page对象

int getStartPosition ():取得这个Node在HTML页面中的起始位置

int getEndPosition ():取得这个Node在HTML页面中的结束位置

5、使用Filter访问Node节点及其内容

(1)Filter的种类

顾名思义,Filter就是对于结果进行过滤,取得需要的内容。

所有的Filter均实现了NodeFilter接口,此接口只有一个方法Boolean accept(Node node),用于确定某个节点是否属于此Filter过滤的范围。

HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。

判断类Filter:

TagNameFilter

HasAttributeFilter

HasChildFilter

HasParentFilter

HasSiblingFilter

IsEqualFilter

逻辑运算Filter:

AndFilter

NotFilter

OrFilter

XorFilter

其他Filter:

NodeClassFilter

StringFilter

LinkStringFilter

LinkRegexFilter

RegexFilter

CssSelectorNodeFilter

除此以外,可以自定义一些Filter,用于完成特殊需求的过滤。

(2)Filter的使用示例

以下示例用于提取HTML文件中的链接

[java] view
plain
copyHtmlParser基础教程HtmlParser基础教程
  1. package org.ljh.search.html;
  2. import java.util.HashSet;
  3. import java.util.Set;
  4. import org.htmlparser.Node;
  5. import org.htmlparser.NodeFilter;
  6. import org.htmlparser.Parser;
  7. import org.htmlparser.filters.NodeClassFilter;
  8. import org.htmlparser.filters.OrFilter;
  9. import org.htmlparser.tags.LinkTag;
  10. import org.htmlparser.util.NodeList;
  11. import org.htmlparser.util.ParserException;
  12. //本类创建用于HTML文件解释工具
  13. public class HtmlParserTool {
  14. // 本方法用于提取某个html文档中内嵌的链接
  15. public static Set<String> extractLinks(String url, LinkFilter filter) {
  16. Set<String> links = new HashSet<String>();
  17. try {
  18. // 1、构造一个Parser,并设置相关的属性
  19. Parser parser = new Parser(url);
  20. parser.setEncoding("gb2312");
  21. // 2.1、自定义一个Filter,用于过滤<Frame >标签,然后取得标签中的src属性值
  22. NodeFilter frameNodeFilter = new NodeFilter() {
  23. @Override
  24. public boolean accept(Node node) {
  25. if (node.getText().startsWith("frame src=")) {
  26. return true;
  27. } else {
  28. return false;
  29. }
  30. }
  31. };
  32. //2.2、创建第二个Filter,过滤<a>标签
  33. NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);
  34. //2.3、净土上述2个Filter形成一个组合逻辑Filter。
  35. OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);
  36. //3、使用parser根据filter来取得所有符合条件的节点
  37. NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);
  38. //4、对取得的Node进行处理
  39. for(int i = 0; i<nodeList.size();i++){
  40. Node node = nodeList.elementAt(i);
  41. String linkURL = "";
  42. //如果链接类型为<a />
  43. if(node instanceof LinkTag){
  44. LinkTag link = (LinkTag)node;
  45. linkURL= link.getLink();
  46. }else{
  47. //如果类型为<frame />
  48. String nodeText = node.getText();
  49. int beginPosition = nodeText.indexOf("src=");
  50. nodeText = nodeText.substring(beginPosition);
  51. int endPosition = nodeText.indexOf(" ");
  52. if(endPosition == -1){
  53. endPosition = nodeText.indexOf(">");
  54. }
  55. linkURL = nodeText.substring(5, endPosition - 1);
  56. }
  57. //判断是否属于本次搜索范围的url
  58. if(filter.accept(linkURL)){
  59. links.add(linkURL);
  60. }
  61. }
  62. } catch (ParserException e) {
  63. e.printStackTrace();
  64. }
  65. return links;
  66. }
  67. }

程序中的一些说明:

(1)通过Node#getText()取得节点的String。

(2)node instanceof TagLink,即<a/>节点,其它还有很多的类似节点,如tableTag等,基本上每个常见的html标签均会对应一个tag。官方文档说明如下:

org.htmlparser.nodes The nodes package has the concrete node implementations.
org.htmlparser.tags The tags package contains specific tags.

因此可以通过此方法直接判断一个节点是否某个标签内容。

其中用到的LinkFilter接口定义如下:

[java] view
plain
copyHtmlParser基础教程HtmlParser基础教程
  1. package org.ljh.search.html;
  2. //本接口所定义的过滤器,用于判断url是否属于本次搜索范围。
  3. public interface LinkFilter {
  4. public boolean accept(String url);
  5. }

测试程序如下:

[java] view
plain
copyHtmlParser基础教程HtmlParser基础教程
  1. package org.ljh.search.html;
  2. import java.util.Iterator;
  3. import java.util.Set;
  4. import org.junit.Test;
  5. public class HtmlParserToolTest {
  6. @Test
  7. public void testExtractLinks() {
  8. String url = "http://www.baidu.com";
  9. LinkFilter linkFilter = new LinkFilter(){
  10. @Override
  11. public boolean accept(String url) {
  12. if(url.contains("baidu")){
  13. return true;
  14. }else{
  15. return false;
  16. }
  17. }
  18. };
  19. Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);
  20. Iterator<String> it = urlSet.iterator();
  21. while(it.hasNext()){
  22. System.out.println(it.next());
  23. }
  24. }
  25. }

输出结果如下:

http://www.hao123.com

http://www.baidu.com/

http://www.baidu.com/duty/

http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=

http://music.baidu.com

http://ir.baidu.com

http://www.baidu.com/gaoji/preferences.html

http://news.baidu.com

http://map.baidu.com

http://music.baidu.com/search?fr=ps&key=

http://image.baidu.com

http://zhidao.baidu.com

http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=

http://www.baidu.com/more/

http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w

http://wenku.baidu.com

http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=

https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://www.baidu.com/cache/sethelp/index.html

http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt

http://tieba.baidu.com/f?kw=&fr=wwwt

http://home.baidu.com

https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://v.baidu.com

http://e.baidu.com/?refer=888

;

http://tieba.baidu.com

http://baike.baidu.com

http://wenku.baidu.com/search?word=&lm=0&od=0

http://top.baidu.com

http://map.baidu.com/m?word=&fr=ps01000

HtmlParser基础教程的更多相关文章

  1. HtmlParser基础教程 分类: C&lowbar;OHTERS 2014-05-22 11&colon;33 1649人阅读 评论&lpar;1&rpar; 收藏

    1.相关资料 官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/jav ...

  2. matlab基础教程——根据Andrew Ng的machine learning整理

    matlab基础教程--根据Andrew Ng的machine learning整理 基本运算 算数运算 逻辑运算 格式化输出 小数位全局修改 向量和矩阵运算 矩阵操作 申明一个矩阵或向量 快速建立一 ...

  3. &lt&semi;&lt&semi;Bootstrap基础教程&gt&semi;&gt&semi; 新书出手&comma;有心栽花花不开&comma;无心插柳柳成荫

    并非闲的蛋疼,做技术也经常喜欢蛋疼,纠结于各种技术,各种需求变更,还有一个很苦恼的就是UI总是那么不尽人意.前不久自己开源了自己做了多年的仓储项目(开源地址:https://github.com/he ...

  4. Memcache教程 Memcache零基础教程

    Memcache是什么 Memcache是danga.com的一个项目,来分担数据库的压力. 它可以应对任意多个连接,使用非阻塞的网络IO.由于它的工作机制是在内存中开辟一块空间,然后建立一个Hash ...

  5. Selenium IDE 基础教程

    Selenium IDE 基础教程 1.下载安装     a 在火狐浏览其中搜索附件组件,查找 Selenium IDE     b 下载安装,然后重启firefox 2.界面讲解      在菜单- ...

  6. html快速入门(基础教程&plus;资源推荐)

    1.html究竟是什么? 从字面上理解,html是超文本标记语言hyper text mark-up language的首字母缩写,指的是一种通用web页面描述语言,是用来描述我们打开浏览器就能看到的 ...

  7. 转发-UI基础教程 – 原生App切图的那些事儿

    UI基础教程 – 原生App切图的那些事儿 转发:http://www.shejidaren.com/app-ui-cut-and-slice.html 移动APP切图是UI设计必须学会的一项技能,切 ...

  8. 【Unity3D基础教程】给初学者看的Unity教程(四):通过制作Flappy Bird了解Native 2D中的RigidBody2D和Collider2D

    作者:王选易,出处:http://www.cnblogs.com/neverdie/ 欢迎转载,也请保留这段声明.如果你喜欢这篇文章,请点[推荐].谢谢! 引子 在第一篇文章[Unity3D基础教程] ...

  9. oracle基础教程(8)oracle修改字符集

    oracle基础教程(8)oracle修改字符集 1.用dba连接数据库 -->sqlplus / as sysdba 2.查看字符集 -->SELECT parameter, value ...

随机推荐

  1. Redis——学习之路二(初识redis服务器命令)

    上一章我们已经知道了如果启动redis服务器,现在我们来学习一下,以及如何用客户端连接服务器.接下来我们来学习一下查看操作服务器的命令. 服务器命令: 1.info——当前redis服务器信息   s ...

  2. EasyUi &ndash&semi; 1&period;入门

    1.页面引用. jquery,easyui,主题easyui.css,图标ico.css,语言zh_CN.js <script src="Scripts/jquery-easyui-1 ...

  3. hdu 3926 Hand in Hand 同构图

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3926 In order to get rid of Conan, Kaitou KID disguis ...

  4. Linux入门基础 &num;6:Linux用户基础

    本文出自   http://blog.csdn.net/shuangde800 ------------------------------------------------------------ ...

  5. DrawerLayout、CoordinatorLayout、CollapsingToolbarLayout的使用--AndroidSupportDesign练手

    先po一张效果图 PS:原谅题主的懒惰吧.. 看着是不是很酷炫,那是因为5.0的动画做得好,代码其实没有多少,搞清楚这个布局的层次关系很重要. 废话不多说了,先来看布局文件 最外层是一个DrawerL ...

  6. SQL语句详细汇总

    SQL语句详细汇总 | 浏览:3061 | 更新:2013-06-10 19:50 一.基础 1.说明:创建数据库 CREATE DATABASE database-name 2.说明:删除数据库 d ...

  7. aapt不是内部命令

    解决方法:在E:\sdk\build-tools\目录下的任意文件夹下查找aapt,复制到E:\sdk\platform-tools,具体盘符是情况而定,如果还不行,尝试配置环境变量!

  8. &lbrack; SSH框架 &rsqb; Hibernate框架学习之三

    一.表关系的分析 Hibernate框架实现了ORM的思想,将关系数据库中表的数据映射成对象,使开发人员把对数据库的操作转化为对对象的操作,Hibernate的关联关系映射主要包括多表的映射配置.数据 ...

  9. 详解Java内存区域?虚拟机类加载机制?

    一.Java运行时数据区域 1.程序计数器 “线程私有”的内存,是一个较小的内存空间,它可以看做当前线程所执行的字节码的行号指示器.Java虚拟机规范中唯一一个没有OutOfMemoryError情况 ...

  10. pycharm修改注释颜色

    原来的注释是红色的,看着跟报错似的.. 还有flask中html文件的注释,我修改了Django的注释颜色,flask也就改了 也可以直接点击下面的代码,哪里难看点哪里