请教一个正则表达式匹配敏感字的问题

时间:2021-03-11 05:45:11
用户输入的文字:汉王输入法教你打汉字
管理员设置的敏感字组:汉*字|中*文

其中*表示可以为任意多个任意字符(包括中文),要求匹配到敏感字后,返回给用户违反了哪个规则

例如上面的
正则表达式我写的是:汉.*字|中.*文
匹配结果:汉王输入法教你打汉字
要求返回:汉字

现在返回结果那里我卡主了,由于要检测大量的文件,尽量避免多次循环,那么,就不能采取按“|”切分敏感字组的方法。

请问谁有什么好的方法可以获得返回的字符么?

5 个解决方案

#1


坐等大神 请教一个正则表达式匹配敏感字的问题

#2


不知道到底问的什么
你不用|,那就匹配对应关键字

#3


楼主表述不清啊

#4


引用 2 楼 oyljerry 的回复:
不知道到底问的什么
你不用|,那就匹配对应关键字


要求是检测用户输入的信息,管理员来设立敏感字组,用户输入的信息有敏感字时,返回用户输入的信息中含有的敏感字来提示用户。管理员设置的敏感字组用*来表示通配符,用|来分隔不同的敏感字。
例如:敏感字组:武则天|刘*邦
这里面匹配“武则天”必须相连,中间不能有其他字符;匹配“刘邦”时,两字中间可以有其他字符,也可以没有,也就是说“刘sfafasfdsfa邦”可以匹配,只有“刘邦”也是可以匹配的。

假设用户输入文字:刘scfr大ssr邦月下追韩信
这段中有敏感字“刘邦”,要求返回给用户“刘邦”二字

我现在能做的:敏感字组改为正则表达式:武则天|刘.*邦
匹配到的结果:刘scfr大ssr邦

但是我想不出不用循环拆分“武则天|刘*邦”的话,如何获得“刘邦”二字
由于我需要用递归全盘检索指定用户的文件,再匹配内容,如果这里再用循环来拆分敏感字组来返回“刘邦”的话,程序的搜索时间会是只匹配不返回值的3-6倍

因此我想问,有什么不用循环,能够获得“刘邦”二字的方法么?

#5


引用 3 楼 u010869264 的回复:
楼主表述不清啊


请看四楼,我觉得这回说的够清楚了

#1


坐等大神 请教一个正则表达式匹配敏感字的问题

#2


不知道到底问的什么
你不用|,那就匹配对应关键字

#3


楼主表述不清啊

#4


引用 2 楼 oyljerry 的回复:
不知道到底问的什么
你不用|,那就匹配对应关键字


要求是检测用户输入的信息,管理员来设立敏感字组,用户输入的信息有敏感字时,返回用户输入的信息中含有的敏感字来提示用户。管理员设置的敏感字组用*来表示通配符,用|来分隔不同的敏感字。
例如:敏感字组:武则天|刘*邦
这里面匹配“武则天”必须相连,中间不能有其他字符;匹配“刘邦”时,两字中间可以有其他字符,也可以没有,也就是说“刘sfafasfdsfa邦”可以匹配,只有“刘邦”也是可以匹配的。

假设用户输入文字:刘scfr大ssr邦月下追韩信
这段中有敏感字“刘邦”,要求返回给用户“刘邦”二字

我现在能做的:敏感字组改为正则表达式:武则天|刘.*邦
匹配到的结果:刘scfr大ssr邦

但是我想不出不用循环拆分“武则天|刘*邦”的话,如何获得“刘邦”二字
由于我需要用递归全盘检索指定用户的文件,再匹配内容,如果这里再用循环来拆分敏感字组来返回“刘邦”的话,程序的搜索时间会是只匹配不返回值的3-6倍

因此我想问,有什么不用循环,能够获得“刘邦”二字的方法么?

#5


引用 3 楼 u010869264 的回复:
楼主表述不清啊


请看四楼,我觉得这回说的够清楚了