在项目中遇到这样一个需求,需要将一段html转换为一般文本返回,万能的正则表达式来了。
正则表达式来拯救你,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
public static string Html2Text( string htmlStr)
{
if (String.IsNullOrEmpty(htmlStr))
{
return "" ;
}
string regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>" ; //定义style的正则表达式
string regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>" ; //定义script的正则表达式
string regEx_html = "<[^>]+>" ; //定义HTML标签的正则表达式
htmlStr = Regex.Replace(htmlStr, regEx_style, "" ); //删除css
htmlStr = Regex.Replace(htmlStr, regEx_script, "" ); //删除js
htmlStr = Regex.Replace(htmlStr, regEx_html, "" ); //删除html标记
htmlStr = Regex.Replace(htmlStr, "\\s*|\t|\r|\n" , "" ); //去除tab、空格、空行
htmlStr = htmlStr.Replace( " " , "" );
htmlStr = htmlStr.Replace( "" ", " ");//去除异常的引号" " "
htmlStr = htmlStr.Replace( "" ", " ");
return htmlStr.Trim();
}
|
以上所述是小编给大家介绍的C#使用正则表达式过滤html标签 ,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对服务器之家网站的支持!
原文链接:http://www.cnblogs.com/ben121011/p/5778880.html?utm_source=tuicool&utm_medium=referral