利用Dom操作字符串一例

时间:2022-02-18 14:42:59
 

有时对字符串的处理可以利用Dom模式,例如下面字符串:

    <a1>a1的值</a1><a2>a2的值</a2><a3>a3的值</a3><a4><b4 id='b4'>b4的值</b4></a4>

要将b4元素的值修改为“修改后的b4“。

除了用正则的方法外,还可以考虑Dom操作,下面分别用XmlDocument类和HtmlAgilityPack操作。

方法1,用XmlDocument类:

XmlDocument xmlDoc = new XmlDocument();
xmlDoc.LoadXml("<xml>" + s + "</xml>");
xmlDoc.SelectSingleNode(@"//b4").InnerText = "修改后的b4";
Response.Write(Server.HtmlEncode(xmlDoc.DocumentElement.InnerXml));


上面第二句是关键,由于源字符串可能缺少唯一的根元素,如本例,所以在外层包裹一对标签就可以将其转化为合法的xml文档,然后修改后的源文本用xmlDoc.DocumentElement.InnerXml取出。当然方法1仅限于源文本近似于xml且比较规范的场合。

方法2,用HtmlAgilityPack:

string s = @"<a1>a1的值</a1><a2>a2的值</a2><a3>a3的值</a3><a4><b4 id='b4'>b4的值</b4></a4>";
HtmlDocument hxmlDoc = new HtmlDocument();
hxmlDoc.LoadHtml(s);
hxmlDoc.DocumentNode.SelectSingleNode(@"//b4").InnerHtml = "修改后的b4";
Response.Write(Server.HtmlEncode(hxmlDoc.DocumentNode.InnerHtml));


无须用标签包裹,因为即使没有唯一根元素,HtmlAgilityPack仍能正常解析。

以上两种方法启示我们对于数据量不太大、执行效率要求不太高的数据,可以自行组织成标签的形式,在程序中使用,也可以存放在文本文件中。相应的读取写入操作是比较方便的。读者可以对Dom操作涉及的类和成员做进一步封装,简化相应操作。