使用正则表达式获取网页编码
Match charSetMatch = System.Text.RegularExpressions
.Regex.Match(content, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
//charset
string webCharSet = charSetMatch.Groups[2].Value;
System.Text.RegularExpressions 命名空间包含一些类,这些类提供对 .NET Framework 正则表达式引擎的访问。该命名空间提供正则表达式功能,可以从运行在 Microsoft .NET Framework 内的任何平台或语言中使用该功能。
C#中使用正则表达式匹配文本:
Regex.Replace(stringContent, @"<[^>]*?>", "");
非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:
有些不支持验证零宽度断言
零宽度正回顾后发断言
例如匹配:
<dd class="w80">谢先生</dd>
匹配不包含 </dd> 的结果,
正则表达式 : (.*?)(?=</dd>)
结果为:dd class="w80">谢先生
零宽度正预测先行断言
匹配前面不包含某个字符 (?<=<dd class="w80">)