MySQL字符集中文乱码终极解决方案和mysql查询中文问题解决方法[转贴]

开源数据库MySQL从来都是中小企业构建web应用的首选，特别是和PHP配合简直就是一对黄金搭档，深受web开发人员的喜爱。但自从4.1以来MySQL加入了多字符集的支持，很多MySQL使用者发现中文居然不能使用了，显示变成了一堆乱码！以致于很多人还在使用3.24.58的老版本，最近上MySQL网站，发现居然不提供3.24版本的下载了，MySQL已经彻底放弃3.24版本了。好在我还留有一份windows版的copy，就当作纪念吧。
怎么会产生乱码现象的，怎么解决？只要翻下网上的解决方案，马上就可以得出答案：“在获得连接之后执行一句set names 'gb2312'”，但这样做的原因是什么呢？总结一下我的经验。

MySQL处理连接时，外部连接发送过来的SQL请求会根据以下顺序进行转换：
character_set_client          //客户连接所采用的字符集
|
character_set_connection //MySQL连接字符集
|
character_set_database    //数据库所采用的字符集（表，列）
|
character_set_results        //客户机显示所采用的字符集

一. 产生乱码的根本原因在于：
1.客户机没有正确地设置client字符集，导致原先的SQL语句被转换成connection所指字符集，而这种转换，是会丢失信息的，如果client是utf8格式，那么如果转换成gb2312格式，这其中必定会丢失信息，反之则不会丢失。一定要保证connection的字符集大于client字符集才能保证转换不丢失信息。
2. 数据库字体没有设置正确，如果数据库字体设置不正确，那么connection字符集转换成database字符集照样丢失编码，原因跟上面一样。

二.为什么set names 'gb2312'就可以了呢
set names 'gb2312'相当于这三条语句:
set character_set_client = gb2312;
set character_set_connection = gb2312;
set character_set_results = gb2312;
这样做的话，上述产生乱码的原因1就不存在了，因为编码格式都统一了，但是这样做并不是万金油。原因有：
1.你的client不一定是用gb2312编码发送SQL的，如果编码不是gb2312那么转换成gb2312就会产生问题。
2.你的数据库中的表不一定是gb2312格式，如果不是gb2312格式而是其他的比如说latin1，那么在存储字符集的时候就会产生信息丢失。

综上，终极解决方案如下:
1.首先要明确你的客户端时候何种编码格式，这是最重要的（IE6一般用utf8，命令行一般是gbk，一般程序是gb2312)
2.确保你的数据库使用utf8格式，很简单，所有编码通吃。
3.一定要保证connection字符集大于等于client字符集，不然就会信息丢失，比如latin1<gb2312<gbk<utf8
若设置set character_set_client = gb2312，那么至少connection的字符集要大于等于gb2312，否则就会丢失信息
4.以上三步做正确的话，那么所有中文都被正确地转换成utf8格式存储进了数据库，为了适应不同的浏览器，不同的客户端，你可以修改character_set_results来以不同的编码显示中文字体，由于utf8是大方向，因此web应用是我还是倾向于使用utf8格式显示中文的。

以上就是我的心得了。附上连接源码，现行设置，程序中就可以不考虑字符集问题了
include "conf/system.php";

class Connection {
private $conn;

function __construct() {
global $mysql_ipaddr, $mysql_port, $mysql_db, $mysql_user, $mysql_pass;

try {
$this->conn = new PDO("mysql:host=$mysql_ipaddr;port=$mysql_port;dbname=$mysql_db", $mysql_user, $mysql_pass);
} catch (PDOException $e) {
print "MySQL服务器连接失败: " . $e->getMessage() . "<br>";
die();
}
}

public function getConnection() {
if ($this->conn != null) {
$this->conn->query("set character_set_client = gb2312");    //客户端使用gb2312格式
$this->conn->query("set character_set_connection = utf8"); //连接字符集使用utf8格式
$this->conn->query("set character_set_results = utf8");       //显示字符集使用utf8格式
return $this->conn;
}
}

public function closeConnection() {
if ($this->conn != null) {
$this->conn = null;
}
}
}

我现在在mysql上遇到一个问题,我们的字符集是gb2312.在中文模糊查找时,会有不相关的结果集.

从问题的根本原因分析，还有下面的问题。
例：
汉字“不”的第1、2字节ascii值分别为：178与187
汉字“安”的第1、2字节ascii值分别为：176与178
汉字“花”的第1、2字节ascii值分别为：187与168
聪明的人已经看出来了：在字符串“安花”中模糊查找字符“不”字时，mysql系统也会认为两者匹配!

出现这个问题的原因是：MySQL在查询字符串时是大小写不敏感的，在编绎MySQL时一般以ISO-8859字符集作为默认的字符集，因此在比较过程中中文编码字符大小写转换造成了这种现象。

方法一:
解决方法是对于包含中文的字段加上"binary"属性，使之作为二进制比较，例如将"name char(10)"改成"name char(10)binary"。

方法二:
如果你使用源码编译MySQL，可以编译MySQL时使用--with--charset=gbk 参数，这样MySQL就会直接支持中文查找和排序了。

方法三:
可以使用 Mysql 的 locate 函数来判断。以上述问题为例,使用方法为:
SELECT * FROM table WHERE locate(field,'李') > 0;
本站使用的就是这种方法，感觉还不错。:P

方法四:
把您的Select语句改成这样,SELECT * FROM TABLE WHERE FIELDS LIKE BINARY '%FIND%'即可!

升级的根本，如果想使用“正确”的字符集，还是先用mysqldump导出成文件，然后导入。

秒客网

MySQL字符集中文乱码终极解决方案和mysql查询中文问题解决方法[转贴]

相关文章