有没有Java类可以解析html文件并生成树?

时间:2021-11-28 12:01:10
本人想解析一个html文件,并生成相应的dom tree,然后在tree你们取一些信息来用,也就是网页信息抓取。

请问,有什么现成的类可以使用吗?

我现在使用ParserDelegator,它只是解析html文化后,碰到tag时把tag和属性通过回调函数传回,碰到tag结束调用相应的回调函数,这样还是需要我自己去建立树。

有没有直接解析完毕就是一个dom tree,然后通过dom tree的方法获取你们的信息?

Java的类这么丰富,我想应该有吧,如果没有,有什么好的tree结构可以使用了?

偶是Java新手,对类不熟,烦请高手指教。

4 个解决方案

#1


解析具体的网页 提取内容

最好用的是正则表达式


html不是强格式的

可能会不规范

#2


吼吼 使用jsoup

#3


用开源组件dtree吧  再结合extjs 或 ajax 实现 你要的功能吧~~我觉得dtree还行啊

#4


这么说,还是需要自己生产dtree了

OK,我试一下

#1


解析具体的网页 提取内容

最好用的是正则表达式


html不是强格式的

可能会不规范

#2


吼吼 使用jsoup

#3


用开源组件dtree吧  再结合extjs 或 ajax 实现 你要的功能吧~~我觉得dtree还行啊

#4


这么说,还是需要自己生产dtree了

OK,我试一下