关于HtmlParser提取标签不完整的问题(HtmlParser扩展)

HtmlParser可用来解析html,但它并不认识所有标签,如font,strong和自定义标签...而遇到它不认识的标签时提取出来的内容只会是这个标签的开始标签.

例如有段Html是加粗字体 ,如果用NodeList nodeList = parser.parser(new TagNameFilter("strong"));提取的话结果就是 .如果想让提取结果是完整的加粗字体,则要扩展HtmlParser,让它认识这个标签,方法是自定义一个类继承自HtmlParser,然后利用PrototypicalNodeFactory在静态代码块中注册新的标签.当然,新的标签类是事先写好的,代码如下:

/** * @（#）:MyParser.java * @description: * @author: zx 2010-12-9 */ package com.zx.parser; import org.htmlparser.Parser; import org.htmlparser.PrototypicalNodeFactory; import org.htmlparser.lexer.Lexer; import org.htmlparser.util.ParserFeedback; /** * @（#）:MyParser.java * @description: 继承自Parser的类,对Parser进行扩展 * @author: zx 2010-12-9 */ public class MyParser extends Parser { private static PrototypicalNodeFactory factory = null; //注册自定义标签 static{ factory = new PrototypicalNodeFactory(); factory.registerTag(new FontTag()); factory.registerTag(new StrongTag()); } public MyParser(){ super(); setNodeFactory(factory); } public MyParser(Lexer lexer, ParserFeedback fb) { super(lexer, fb); setNodeFactory(factory); } }

扩展的新标签类如下:

/** * @（#）:StrongTag.java * @description: * @author: zx 2010-12-9 */ package com.zx.parser; import org.htmlparser.tags.CompositeTag; /** * @（#）:StrongTag.java * @description: 扩展的Strong标签 * @author: zx 2010-12-9 */ public class StrongTag extends CompositeTag { private static final String mIds[] = { "strong" }; private static final String mEndTagEnders[] = { "strong" }; public StrongTag() { } public String[] getIds() { return mIds; } public String[] getEndTagEnders() { return mEndTagEnders; } }

在需要创建HtmlParser对象时只需创建MyParser对象即可.

另附

htmlparser.jar: http://download.csdn.net/source/3099671

htmllexer.jar:http://download.csdn.net/source/3099676

秒客网

关于HtmlParser提取标签不完整的问题(HtmlParser扩展)

相关文章