CI_Utf8类用来对Utf8编码环境提供支持。(Provides support for UTF-8 environments)。
从构造函数看,只有当开启了PCRE模式,加载了iconv或者mbstring扩展,配置中定义了该应用使用的是utf8编码的时候,才设置UTF8_ENABLED为TRUE。(这里为什么不用一个类的成员变量来定义呢?从搜索该关键词在框架中使用结果来看,多为判断直接通过该全局变量判断,省去了加载该类的操作,方便使用。)
PCRE :PERL兼容正则表达式函数(perl compatible regular expression)。大概的介绍可以看看:PEAR和PECL的区别及PCRE和POSIX的区别。都是首字母缩写,中国人看着的确头晕。详细的介绍还是去官网看文档吧。
各函数解释:
is_ascii($str)
判断一个字符串是否是完全的asc字符。原理如下:
1)在字符编码方面,ASCII码为标准符号、数字、英文等进行了保留,取值范围是0~127,还有一部分作为扩展ASCII码128~255;
2)当操作系统采用非ASCII编码时(比如汉字编码),一般用扩展ASCII码来进行,约定用128~255范围的编码连续2~3甚至4个来进行汉字编码,(比如国标用连续两个128~255的编码表示1个汉字,分别是区码和位码的编码;UTF-8可以用3个连续的数来表示一个汉字),具体编码规则要看具体定义,一般不相同的。
3)因此,在处理字符串时,如果是有符号字符串,遇到小于0的字符,会结合后面紧跟的字符来组成一个汉字,大于0的为标准西文字符;如果是无符号的,则可以判断是否大于127。
clean_string($str)
保证utf8字符串中只有UTF8字符。
convert_to_utf8($str, $encoding)
将一个其他字符编码的字符串转换为utf8编码的字符串。注意到,作者在使用转换函数的时候,首选的都是mbstring扩展中的mb_convert_encoding函数。
总结,没有了,这个类的方法看似很少,也没有成员变量。所以该类的作用只是简单的提供一些utf8环境的判断,字符串转换和字符串清理的功能。