强烈推荐一个大神的人工智能的教程:/zhanghan
前言
最近项目的短信服务对接外国的第三方发短信通道,第三方对短信内容有限制,不能含中文字符(如果含调用结果肯定失败),所以在发送之前需要对短信内容做校验,看是否含有中文,如果含有则直接将短信发送状态改为失败,不用再去调用第三方;
探索之旅
站在巨人的肩膀上, 立马在网上搜索一下关于Java怎么判断字符串中是否含有中文;果然网上有很多实现;
一、最简单的方式
字符与字节的长度
依据:一个中文占两个字节,一个英文占一个字节。故若是字符长度与字节长度相等,则判断为英文。否则为中文。
public static boolean isEnglish(String p) {
byte[] bytes = ();
int i = ;//i为字节长度
int j = ();//j为字符长度
return i == j;
}
二、实现方式1
针对每个字符判断
public static boolean isChinese(String str) throws UnsupportedEncodingException {
int len = ();
for(int i = 0; i < len; i ++) {
String temp = ((i) + "", "utf-8");
if(((i) + ""))
continue;
String[] codes = ("%");
//判断是中文还是字符(下面判断不精确,部分字符没有包括)
for(String code : codes) {
if(("40") > 0)
return true;
}
}
return false;
}
缺点:效率低【每次都需要循环检测字符串中每个字符】(每次发送都需要检测短信内容,每条内容有很多字符);
优点:不仅能检测出中文汉字还能检测中中文标点;
二、实现方式2
利用正则表达式
public static boolean isContainChinese(String str) {
Pattern p = ("[\u4e00-\u9fa5]");
Matcher m = (str);
return ();
}
缺点:只能检测出中文汉字不能检测中文标点;
优点:利用正则效率高;
三、实现方式3
改造正则
/**
* 字符串是否包含中文
*
* @param str 待校验字符串
* @return true 包含中文字符 false 不包含中文字符
* @throws EmptyException
*/
public static boolean isContainChinese(String str) throws EmptyException {
if ((str)) {
throw new EmptyException("sms context is empty!");
}
Pattern p = ("[\u4E00-\u9FA5|\\!|\\,|\\。|\\(|\\)|\\《|\\》|\\“|\\”|\\?|\\:|\\;|\\【|\\】]");
Matcher m = (str);
return ();
}
优点:效率既高又能检测出中文汉字和中文标点;
缺点:目前尚未发现。
总结
- 站在巨人的肩膀上,多去查,多做比较;
- 针对程序不断的优化,比如第一种方式循环读字符串量大后很容易将服务器CPU搞崩。