文件名称:解析得到除去标签的txt内容
文件大小:33KB
文件格式:PDF
更新时间:2024-02-10 08:07:20
htmlparser 标签
代码如下:NodeList body_nodes=this.getParser().parse(body_filter); for(int i=0;i<body_nodes.size();i++) { Node node=body_nodes.elementAt(i); Parser body_parser=new Parser(node.toHtml()); TextExtractingVisitor visitor=new TextExtractingVisitor(); body_parser.visitAllNodesWith(visitor); body.append(visitor