linux下字符编码转换的一些疑惑

各位，咨询一个问题，我现在有一个文件，编码格式是GBK,里面有一些字段是UTF16编码。

在window系统下，用WideCharToMultiByte()将这些字段转换成功了，UTF16->GBK
之前也发过一个帖子http://bbs.csdn.net/topics/392048447

在Linux系统下，我现在想用iconv这个函数，可是自己按照网上写的几个测试iconv的程序都有问题，
Linux系统的字符编码格式是UTF-8, 那我要将这些UTF-16的字段正确显示出来，是要转换成UTF-8么

11 个解决方案

#1

对，全部转成UTF-8

#2

//iconv_linux下字符集编码转换轻松实现

(1) iconv_t iconv_open(const char *tocode, const char *fromcode);

//此函数说明将要进行哪两种编码的转换,tocode是目标编码,fromcode是原编码,该函数返回一个转换句柄,供以下两个函数使用。

(2) size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);

//此函数从inbuf中读取字符,转换后输出到outbuf中,inbytesleft用以记录还未转换的字符数,outbytesleft用以记录输出缓冲的剩余空间。

(3) int iconv_close(iconv_t cd);

//此函数用于关闭转换句柄,释放资源。


//例子1: 用C语言实现的转换示例程序


/* f.c : 代码转换示例C程序 */

#include <iconv.h>

#define OUTLEN 255

main()

{

char *in_utf8 = "姝ｅ?ㄥ??瑁?";

char *in_gb2312 = "正在安装";

char out[OUTLEN];


/*unicode码转为gb2312码*/

rc = u2g(in_utf8,strlen(in_utf8),out,OUTLEN);

printf("unicode-->gb2312 out=%sn",out);

//gb2312码转为unicode码


rc = g2u(in_gb2312,strlen(in_gb2312),out,OUTLEN);

printf("gb2312-->unicode out=%sn",out);

}

/*代码转换:从一种编码转为另一种编码*/

int code_convert(char *from_charset,char *to_charset,char *inbuf,int inlen,char *outbuf,int outlen)

{

iconv_t cd;

int rc;

char **pin = &inbuf;

char **pout = &outbuf;


cd = iconv_open(to_charset,from_charset);

if (cd==0) return -1;

memset(outbuf,0,outlen);

if (iconv(cd,pin,&inlen,pout,&outlen)==-1) return -1;

iconv_close(cd);

return 0;

}

/*UNICODE码转为GB2312码*/

int u2g(char *inbuf,int inlen,char *outbuf,int outlen)

{

return code_convert("utf-8","gb2312",inbuf,inlen,outbuf,outlen);

}

/*GB2312码转为UNICODE码*/

int g2u(char *inbuf,size_t inlen,char *outbuf,size_t outlen)

{

return code_convert("gb2312","utf-8",inbuf,inlen,outbuf,outlen);

}


//例子2: 用C++语言实现的转换示例程序


/* f.cpp : 代码转换示例C++程序 */

#include <iconv.h>

#include <iostream>


#define OUTLEN 255


using namespace std;


// 代码转换操作类


class CodeConverter {


private:

iconv_t cd;

public:


// 构造

CodeConverter(const char *from_charset,const char *to_charset) {

cd = iconv_open(to_charset,from_charset);

}



// 析构

~CodeConverter() {

iconv_close(cd);

}



// 转换输出

int convert(char *inbuf,int inlen,char *outbuf,int outlen) {

char **pin = &inbuf;

char **pout = &outbuf;


memset(outbuf,0,outlen);

return iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen);

}

};


int main(int argc, char **argv)

{

char *in_utf8 = "姝ｅ?ㄥ??瑁?";

char *in_gb2312 = "正在安装";

char out[OUTLEN];


// utf-8-->gb2312

CodeConverter cc = CodeConverter("utf-8","gb2312");

cc.convert(in_utf8,strlen(in_utf8),out,OUTLEN);

cout << "utf-8-->gb2312 in=" << in_utf8 << ",out=" << out << endl;


// gb2312-->utf-8

CodeConverter cc2 = CodeConverter("gb2312","utf-8");

cc2.convert(in_gb2312,strlen(in_gb2312),out,OUTLEN);

cout << "gb2312-->utf-8 in=" << in_gb2312 << ",out=" << out << endl;

}




二、利用iconv命令进行编码转换


iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。


用法： iconv [选项...] [文件...]


有如下选项可用:


输入/输出格式规范：

-f, --from-code=名称 原始文本编码

-t, --to-code=名称 输出编码


信息：

-l, --list 列举所有已知的字符集


输出控制：

-c 从输出中忽略无效的字符

-o, --output=FILE 输出文件

-s, --silent 关闭警告

--verbose 打印进度信息


-?, --help 给出该系统求助列表

--usage 给出简要的用法信息

-V, --version 打印程序版本号


例子:

iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt

这个命令读取aaa.txt文件，从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。


小结: Linux为我们提供了强大的编码转换工具,给我们带来了方便。

#3

乱写了一个。供参考。



int code_convert(const char *from_charset,const char *to_charset,const string& inbuf,string& outbuf)

{

	iconv_t cd;

	size_t nInputLen = (size_t)(inbuf.length()+1);

	size_t nOutputLen = (size_t)(2*(nInputLen+1));

	char* strInbuf = new char[nInputLen];

	memset(strInbuf,0,nInputLen);

	char* strOutbuf = new char[nOutputLen];

	memset(strOutbuf,0,nOutputLen);

	strncpy(strInbuf,inbuf.c_str(),nInputLen-1);

	char* pInbuf = strInbuf;

	char* pOutbuf = strOutbuf;

	char **pin = &strInbuf;

	char **pout = &strOutbuf;


	cd = iconv_open(to_charset,from_charset);

	if (cd==0)

	{

		return -1;

	}

	outbuf = "";

	size_t nInLen = nInputLen;

	size_t nOutLen = nOutputLen;

	if (iconv(cd,pin,&nInLen,pout,&nOutLen) == -1)

	{

		printf("Exec code_convert() 文件名字符集转换失败\n");

		return -1;

	}

	iconv_close(cd);

	outbuf = pOutbuf;

	delete [] pInbuf;

	delete [] pOutbuf;

	return 0;

}

调用举例如下：
string strBufIn = “Hello,你好，我的电脑。”;
string strBufOut;
code_convert("UTF-8","GBK",strBufIn,strBufOut);//参数1，2根据你的实际情况填写转换与待转换的编码格式。

#4

iconv.h使用看我下面这个例子：输出6367个GB码汉字，由于网页默认是UTF-8故使用iconv转换
http://ideone.com/XrJP4w

#5

引用 4 楼 ipqtjmqj 的回复:

iconv.h使用看我下面这个例子：输出6367个GB码汉字，由于网页默认是UTF-8故使用iconv转换
http://ideone.com/XrJP4w

[code=c]#include <iconv.h>

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <errno.h>


void convert(const char*from_charset, const char* to_charset, char* inbuf, int inlen, char*outbuf, int outlen)

{

	iconv_t icd;


	char** pin = &inbuf;

	char** pout = &outbuf;



	icd = iconv_open(to_charset,from_charset);

	memset(outbuf,0,outlen);


	printf("iconv begin\n");	


	int _result = iconv(icd,pin,(size_t*)&inlen,pout,(size_t*)&outlen);


	if(_result<0)

	{

		int err = errno;

		switch(err)

		{

			case E2BIG:

			{

				printf("errno:E2BIG(outbuf空间不够)\n");

				break;

			}

			case EILSEQ:

			{

				printf("errno:EILSEQ(inbuf多字节序无效)\n");

				break;

			}

			case EINVAL:

			{

				printf("errno:EINVAL(有残留的字节未转换)\n");

				break;

			}

			default:

				break;

		}

	}


	printf("iconv end\n");	

	iconv_close(icd);


}



int main()

{

	char in[30] = "为什么会出错";  ///linux字符编码方式是UTF-8 那么in字符数组是也是以UTF-8保存的么？

	char out_utf16[100];

	char out_utf8[100];


	printf("in len = %d\n",strlen(in));	


	//utf-8---->utf16

	convert("utf-8", "utf-16", in, strlen(in), out_utf16, 100);


	printf("out_utf16 len = %d\n",strlen(out_utf16));


	printf("out_utf16 %s\n",out_utf16);


	//将转换后的utf16在转换成utf8

	convert("utf-16","utf-8", out_utf16, strlen(out_utf16), out_utf8, 100);



	printf("out_utf8 = %s\n",out_utf8);


	printf("out_utf8 len = %d\n",strlen(out_utf8));

	return 0;

}

[/code]

请问我这样处理有什么问题么
linux我运行总是这样，调试也都是iconv()这步，我这样写，也是参考了很多网上的例子，我看了下，和你的用法应该没啥问题啊
linux下字符编码转换的一些疑惑

#6

回楼上，buf是二级指针，len是一级指针，你传参错了

#7

引用 6 楼 ipqtjmqj 的回复:

回楼上，buf是二级指针，len是一级指针，你传参错了

嗯，我现在改好了，也能正确的转换了，但是我发现一个问题就是，遇到汉字一为什么后面的转换就不进行了？

#8

引用 6 楼 ipqtjmqj 的回复:

回楼上，buf是二级指针，len是一级指针，你传参错了

其他的转换都可以正常进行，我这个是从UTF-8转到UTF16，再将UTF-16转成 UTF-8;

#9

我是将读到的UTF-16存放到char[] ，一的UTF-16编码是 4E 00 小端序时，00在前面，这样，是不是char* 以为遇到结束标志了 \0 求指教

#10

引用 9 楼 w1373199 的回复:

我是将读到的UTF-16存放到char[] ，一的UTF-16编码是 4E 00 小端序时，00在前面，这样，是不是char* 以为遇到结束标志了 \0 求指教

对，C风格的字符串以用0判断字符串结束，你可以存到c++的std::string，用.append方法指定长度，这样就不会到0停止了。
或者用unistd的write 指定长度输出

#11

呀呀呀问题解决了，在传参iconv时，要注意strlen的使用，解决方法就是读到多少字节，就实际传多少字节，不用strlen，这样就避免了遇到上述问题，感谢各位~

引用 10 楼 ipqtjmqj 的回复:

Quote: 引用 9 楼 w1373199 的回复:

我是将读到的UTF-16存放到char[] ，一的UTF-16编码是 4E 00 小端序时，00在前面，这样，是不是char* 以为遇到结束标志了 \0 求指教

对，C风格的字符串以用0判断字符串结束，你可以存到c++的std::string，用.append方法指定长度，这样就不会到0停止了。
或者用unistd的write 指定长度输出

嗯我问题解决了，不过是将实际读到的字符长度传进iconv 没用strlen了，这样就可以了，感谢~~

#1

对，全部转成UTF-8

#2

//iconv_linux下字符集编码转换轻松实现

(1) iconv_t iconv_open(const char *tocode, const char *fromcode);

//此函数说明将要进行哪两种编码的转换,tocode是目标编码,fromcode是原编码,该函数返回一个转换句柄,供以下两个函数使用。

(2) size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);

//此函数从inbuf中读取字符,转换后输出到outbuf中,inbytesleft用以记录还未转换的字符数,outbytesleft用以记录输出缓冲的剩余空间。

(3) int iconv_close(iconv_t cd);

//此函数用于关闭转换句柄,释放资源。


//例子1: 用C语言实现的转换示例程序


/* f.c : 代码转换示例C程序 */

#include <iconv.h>

#define OUTLEN 255

main()

{

char *in_utf8 = "姝ｅ?ㄥ??瑁?";

char *in_gb2312 = "正在安装";

char out[OUTLEN];


/*unicode码转为gb2312码*/

rc = u2g(in_utf8,strlen(in_utf8),out,OUTLEN);

printf("unicode-->gb2312 out=%sn",out);

//gb2312码转为unicode码


rc = g2u(in_gb2312,strlen(in_gb2312),out,OUTLEN);

printf("gb2312-->unicode out=%sn",out);

}

/*代码转换:从一种编码转为另一种编码*/

int code_convert(char *from_charset,char *to_charset,char *inbuf,int inlen,char *outbuf,int outlen)

{

iconv_t cd;

int rc;

char **pin = &inbuf;

char **pout = &outbuf;


cd = iconv_open(to_charset,from_charset);

if (cd==0) return -1;

memset(outbuf,0,outlen);

if (iconv(cd,pin,&inlen,pout,&outlen)==-1) return -1;

iconv_close(cd);

return 0;

}

/*UNICODE码转为GB2312码*/

int u2g(char *inbuf,int inlen,char *outbuf,int outlen)

{

return code_convert("utf-8","gb2312",inbuf,inlen,outbuf,outlen);

}

/*GB2312码转为UNICODE码*/

int g2u(char *inbuf,size_t inlen,char *outbuf,size_t outlen)

{

return code_convert("gb2312","utf-8",inbuf,inlen,outbuf,outlen);

}


//例子2: 用C++语言实现的转换示例程序


/* f.cpp : 代码转换示例C++程序 */

#include <iconv.h>

#include <iostream>


#define OUTLEN 255


using namespace std;


// 代码转换操作类


class CodeConverter {


private:

iconv_t cd;

public:


// 构造

CodeConverter(const char *from_charset,const char *to_charset) {

cd = iconv_open(to_charset,from_charset);

}



// 析构

~CodeConverter() {

iconv_close(cd);

}



// 转换输出

int convert(char *inbuf,int inlen,char *outbuf,int outlen) {

char **pin = &inbuf;

char **pout = &outbuf;


memset(outbuf,0,outlen);

return iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen);

}

};


int main(int argc, char **argv)

{

char *in_utf8 = "姝ｅ?ㄥ??瑁?";

char *in_gb2312 = "正在安装";

char out[OUTLEN];


// utf-8-->gb2312

CodeConverter cc = CodeConverter("utf-8","gb2312");

cc.convert(in_utf8,strlen(in_utf8),out,OUTLEN);

cout << "utf-8-->gb2312 in=" << in_utf8 << ",out=" << out << endl;


// gb2312-->utf-8

CodeConverter cc2 = CodeConverter("gb2312","utf-8");

cc2.convert(in_gb2312,strlen(in_gb2312),out,OUTLEN);

cout << "gb2312-->utf-8 in=" << in_gb2312 << ",out=" << out << endl;

}




二、利用iconv命令进行编码转换


iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。


用法： iconv [选项...] [文件...]


有如下选项可用:


输入/输出格式规范：

-f, --from-code=名称 原始文本编码

-t, --to-code=名称 输出编码


信息：

-l, --list 列举所有已知的字符集


输出控制：

-c 从输出中忽略无效的字符

-o, --output=FILE 输出文件

-s, --silent 关闭警告

--verbose 打印进度信息


-?, --help 给出该系统求助列表

--usage 给出简要的用法信息

-V, --version 打印程序版本号


例子:

iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt

这个命令读取aaa.txt文件，从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。


小结: Linux为我们提供了强大的编码转换工具,给我们带来了方便。

#3

乱写了一个。供参考。



int code_convert(const char *from_charset,const char *to_charset,const string& inbuf,string& outbuf)

{

	iconv_t cd;

	size_t nInputLen = (size_t)(inbuf.length()+1);

	size_t nOutputLen = (size_t)(2*(nInputLen+1));

	char* strInbuf = new char[nInputLen];

	memset(strInbuf,0,nInputLen);

	char* strOutbuf = new char[nOutputLen];

	memset(strOutbuf,0,nOutputLen);

	strncpy(strInbuf,inbuf.c_str(),nInputLen-1);

	char* pInbuf = strInbuf;

	char* pOutbuf = strOutbuf;

	char **pin = &strInbuf;

	char **pout = &strOutbuf;


	cd = iconv_open(to_charset,from_charset);

	if (cd==0)

	{

		return -1;

	}

	outbuf = "";

	size_t nInLen = nInputLen;

	size_t nOutLen = nOutputLen;

	if (iconv(cd,pin,&nInLen,pout,&nOutLen) == -1)

	{

		printf("Exec code_convert() 文件名字符集转换失败\n");

		return -1;

	}

	iconv_close(cd);

	outbuf = pOutbuf;

	delete [] pInbuf;

	delete [] pOutbuf;

	return 0;

}

#4

iconv.h使用看我下面这个例子：输出6367个GB码汉字，由于网页默认是UTF-8故使用iconv转换
http://ideone.com/XrJP4w

#5

引用 4 楼 ipqtjmqj 的回复:

iconv.h使用看我下面这个例子：输出6367个GB码汉字，由于网页默认是UTF-8故使用iconv转换
http://ideone.com/XrJP4w

[code=c]#include <iconv.h>

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <errno.h>


void convert(const char*from_charset, const char* to_charset, char* inbuf, int inlen, char*outbuf, int outlen)

{

	iconv_t icd;


	char** pin = &inbuf;

	char** pout = &outbuf;



	icd = iconv_open(to_charset,from_charset);

	memset(outbuf,0,outlen);


	printf("iconv begin\n");	


	int _result = iconv(icd,pin,(size_t*)&inlen,pout,(size_t*)&outlen);


	if(_result<0)

	{

		int err = errno;

		switch(err)

		{

			case E2BIG:

			{

				printf("errno:E2BIG(outbuf空间不够)\n");

				break;

			}

			case EILSEQ:

			{

				printf("errno:EILSEQ(inbuf多字节序无效)\n");

				break;

			}

			case EINVAL:

			{

				printf("errno:EINVAL(有残留的字节未转换)\n");

				break;

			}

			default:

				break;

		}

	}


	printf("iconv end\n");	

	iconv_close(icd);


}



int main()

{

	char in[30] = "为什么会出错";  ///linux字符编码方式是UTF-8 那么in字符数组是也是以UTF-8保存的么？

	char out_utf16[100];

	char out_utf8[100];


	printf("in len = %d\n",strlen(in));	


	//utf-8---->utf16

	convert("utf-8", "utf-16", in, strlen(in), out_utf16, 100);


	printf("out_utf16 len = %d\n",strlen(out_utf16));


	printf("out_utf16 %s\n",out_utf16);


	//将转换后的utf16在转换成utf8

	convert("utf-16","utf-8", out_utf16, strlen(out_utf16), out_utf8, 100);



	printf("out_utf8 = %s\n",out_utf8);


	printf("out_utf8 len = %d\n",strlen(out_utf8));

	return 0;

}

#6

回楼上，buf是二级指针，len是一级指针，你传参错了

#7

引用 6 楼 ipqtjmqj 的回复:

回楼上，buf是二级指针，len是一级指针，你传参错了

嗯，我现在改好了，也能正确的转换了，但是我发现一个问题就是，遇到汉字一为什么后面的转换就不进行了？

#8

引用 6 楼 ipqtjmqj 的回复:

回楼上，buf是二级指针，len是一级指针，你传参错了

其他的转换都可以正常进行，我这个是从UTF-8转到UTF16，再将UTF-16转成 UTF-8;

#9

我是将读到的UTF-16存放到char[] ，一的UTF-16编码是 4E 00 小端序时，00在前面，这样，是不是char* 以为遇到结束标志了 \0 求指教

#10

引用 9 楼 w1373199 的回复:

我是将读到的UTF-16存放到char[] ，一的UTF-16编码是 4E 00 小端序时，00在前面，这样，是不是char* 以为遇到结束标志了 \0 求指教

对，C风格的字符串以用0判断字符串结束，你可以存到c++的std::string，用.append方法指定长度，这样就不会到0停止了。
或者用unistd的write 指定长度输出

#11

引用 10 楼 ipqtjmqj 的回复:

Quote: 引用 9 楼 w1373199 的回复:

我是将读到的UTF-16存放到char[] ，一的UTF-16编码是 4E 00 小端序时，00在前面，这样，是不是char* 以为遇到结束标志了 \0 求指教

对，C风格的字符串以用0判断字符串结束，你可以存到c++的std::string，用.append方法指定长度，这样就不会到0停止了。
或者用unistd的write 指定长度输出

嗯我问题解决了，不过是将实际读到的字符长度传进iconv 没用strlen了，这样就可以了，感谢~~

秒客网

linux下字符编码转换的一些疑惑

11 个解决方案

#1

#2

#3

#4

#5

#6

#7

#8

#9

#10

#11

#1

#2

#3

#4

#5

#6

#7

#8

#9

#10

#11

相关文章