今天在日常维护一个网站时,发现该网站的留言程序没有经过严格的验证过滤,导致了将近十万条垃圾数据。而其中又不乏重要信息,需要清理数据,以及增加更为严格的验证措施。
而通过在数据库中直接删除又不太科学,会误删很多重要信息。
通过 模糊查询语句:
复制代码代码如下:
select * from Feedback where Comments like '%http%'
结果:“内存溢出”
经过不断的搜索,找出了问题的主要原因:
asp 中用 LIKE 关键字查询日文符号就会出错,比如说Chr(-23075),提示内存溢出。
如果数据表中的数据包含日文或者一些特殊非简体汉字符号,也会出现内存溢出的错误。
而网上说,上述问题已经得到微软动力营的微软工程师确认,为产品的 BUG,无法解决。唯一的办法就是将整个数据库中的数据编码为ANSI 文本格式,然后保存。显示的时候再DECODE。
无解,只有按上面所说,进行字段转换保存到另外一个新字段中,然后再进行清理操作。面对这个超标数据真是困难。
EncodeString 函数进行字符转义
复制代码代码如下:
Function EncodeString(strWords)
Dim i As Long
Dim strEncodeWords
For i = 1 To Len(strWords)
strEncodeWords = strEncodeWords & CStr(Asc(Mid(strWords, i, 1))) & ","
Next
EncodeString = strEncodeWords
End Function
这样经过转义后,在模糊搜索时,将关键字进行转义一下
复制代码代码如下:
delete * from Feedback where Comments_new like '%&EncodeString("http")&%'