php截取中文字符串支持utf8和gbk

时间:2021-06-26 07:47:35

截取时注意数据库编码、文件编码、浏览器显示编码是否一致

<?php
//有mb_string扩展优先使用mb_substr截取
function msubstr($str, $start=0, $length, $charset="utf-8"){
return mb_substr($str, $start, $length, $charset);
}
//根据
function msubstr2($str, $start,$len,$charset='utf-8'){
$strlen=$start+$len;
if($charset=='utf-8'){
$offset=3;//utf8一个中文字符占3个字节
}else{
$offset=2;//gbk一个中文字符占2个字节
}
for($i=$start;$i<$strlen;){
if(ord(substr($str,$i,1))>127){ //gb2312大于127,gbk是大于129
$tempstr.=substr($str,$i,3);
$i=$i+$offset;
}else{
$tempstr.=substr($str,$i,1);
$i++;
}
}
return $tempstr;
}
//兼容性好的支持utf-8 gbk
function msubstr3($str, $start=0, $length, $charset="utf-8", $suffix=true)
{
if(function_exists("mb_substr"))
return mb_substr($str, $start, $length, $charset);
elseif(function_exists('iconv_substr')) {
return iconv_substr($str,$start,$length,$charset);
}
$re['utf-8'] = "/[/x01-/x7f]|[/xc2-/xdf][/x80-/xbf]|[/xe0-/xef][/x80-/xbf]{2}|[/xf0-/xff][/x80-/xbf]{3}/";
$re['gb2312'] = "/[/x01-/x7f]|[/xb0-/xf7][/xa0-/xfe]/";
$re['gbk'] = "/[/x01-/x7f]|[/x81-/xfe][/x40-/xfe]/";
$re['big5'] = "/[/x01-/x7f]|[/x81-/xfe]([/x40-/x7e]|/xa1-/xfe])/";
preg_match_all($re[$charset], $str, $match);
$slice = join("",array_slice($match[0], $start, $length));
if($suffix) return $slice."…";
return $slice;
}

$str = 'love中国你好';
echo msubstr($str, 0, 6).'<br/>';
echo msubstr2($str, 0, 9).'<br/>';
echo msubstr2($str, 0,8).'<br/>';

结果:

love中国
love中国
love中国