Atitit.jsou html转换纯文本 java c# php

时间:2023-03-08 16:06:48

Atitit.jsou html转换纯文本 java c# php

1. 原理<p> <h> <li><div> 等lable转换为回车1

2. 调用2

3. Php的实现strip_tags2

4. 参考2

1. 原理<p> <h> <li><div> 等lable转换为回车

"'&(quot|#34);'i", // 替换 HTML 实体

作者:: 绰号:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯 阿克巴 阿尔 拉帕努伊 ) 汉字名:艾龙,  EMAIL:1466519819@qq.com

转载请注明来源: http://www.cnblogs.com/attilax/

public void head(Node node, int depth) {

String name = node.nodeName();

if (node instanceof TextNode)

append(((TextNode) node).text());

else if (name.equals("li"))

append("\n * ");

}

public void tail(Node node, int depth) {

String name = node.nodeName();

if (name.equals("br"))

append("\n");

else if (StringUtil.in(name, new String[] { "p", "h1", "h2", "h3",

"h4", "h5" }))

append("\n\n");

else if (name.equals("a"))

append(String.format(" <%s>",

new Object[] { node.absUrl("href") }));

}

private void append(String text)

2. 调用

public static void main(String[] args) {

pathx.isWebPathMode = true;

String f = pathx.classPath() + "/com/attilax/cms/cms_tmplt.html";

String txt = filex.read(f);

Document doc = Jsoup.parse(txt);

// Document doc = Jsoup.connect(url).get();

String plainText;

HtmlToPlainText formatter = new HtmlToPlainText();

plainText = formatter.getPlainText(doc);

System.out.println(plainText);

String x = "工作时间:08:00-22:00\r\n性别要求:男女不限";

x = plainText;

@SuppressWarnings("rawtypes")

Map m = new RowParser().parse(x);

System.out.println(AtiJson.toJson(m));

System.out.println("---f");

}

3. Php的实现strip_tags

string strip_tags(string str[,string allowable_tags])

4. 参考

Jsoup代码解读之一-概述 - ImportNew.htm

PHP将HTML转换成纯文本内容实例-Php常用代码-Php教程-壹聚教程网.htm