VC中 GBK转UTF-8的问题

时间:2023-01-05 19:58:00
在网上找了很多关于GBK转UTF-8的代码,好像都用不了。
自己用MultiByteToWideChar系列写了个也转换不成功。



void CChineseCode::Gb2312ToUnicode( wchar_t* pOut,char *gbBuffer )
{
::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);
return ;
}

void CChineseCode::UnicodeToUTF_8( char* pOut,wchar_t* pText )
{
// 注意 WCHAR高低字的顺序,低字节在前,高字节在后
char* pchar = (char *)pText;

pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));
pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2)) + ((pchar[0] & 0xC0) >> 6);
pOut[2] = (0x80 | (pchar[0] & 0x3F));

return;
}

流程是先将Gbk转换成Unicode,然后在转换成UTF-8,上面两个函数就是做这两步,有什么问题?
哪位哥们有能用的代码,分享一下。

4 个解决方案

#1




void CChineseCodeLib::UTF_8ToUnicode(WCHAR* pOut,char *pText)
{
char* uchar = (char *)pOut;

uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);
uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F);

return;
}

void CChineseCodeLib::UnicodeToGB2312(char* pOut,unsigned short uData)
{
WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(WCHAR),NULL,NULL);
return;
}

void CChineseCodeLib::Gb2312ToUnicode(WCHAR* pOut,char *gbBuffer)
{
::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);
return;
}

void CChineseCodeLib::UnicodeToUTF_8(char* pOut,WCHAR* pText)
{
// 注意 WCHAR高低字的顺序,低字节在前,高字节在后
/*
char* pchar = (char *)pText;

pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));
pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2)) + ((pchar[1] & 0xC0) >> 6);
pOut[2] = (0x80 | (pchar[0] & 0x3F));
*/
  
 
    int i=0;
#define putchar(a)     pOut[i++]=(BYTE)a;

    WCHAR c=pText[0];
    if (c < 0x80)
    {
        putchar (c);
    }
    else if (c < 0x800)
    {
        putchar (0xC0 | c>>6);
        putchar (0x80 | c & 0x3F);
    }
    else if (c < 0x10000)
    {
        putchar (0xE0 | c>>12);
        putchar (0x80 | c>>6 & 0x3F);
        putchar (0x80 | c & 0x3F);
    }
    else if (c < 0x200000)
    {
        putchar (0xF0 | c>>18);
        putchar (0x80 | c>>12 & 0x3F);
        putchar (0x80 | c>>6 & 0x3F);
        putchar (0x80 | c & 0x3F);
    }
    
return;
}

void CChineseCodeLib::GB2312ToUTF_8(CString& pOut,char *pText, int pLen)
{
if( pLen==0 )
{
return;
}
char buf[4];
char* rst = new char[pLen*6];

memset(buf,0,4);
memset(rst,0,pLen*6);

int i = 0;
int j = 0;
while(i < pLen)
{
//如果是英文直接复制就可以
if( *(pText + i) >= 0)
{
rst[j++] = pText[i++];
}
else
{
WCHAR pbuffer;
Gb2312ToUnicode(&pbuffer,pText+i);

UnicodeToUTF_8(buf,&pbuffer);

unsigned short int tmp = 0;
tmp = rst[j] = buf[0];
tmp = rst[j+1] = buf[1];
tmp = rst[j+2] = buf[2];


j += 3;
i += 2;
}
}
rst[j] = '\0';

//返回结果
pOut = rst;
delete[] rst;

return;
}

void CChineseCodeLib::UTF_8ToGB2312(CString &pOut, char *pText, int pLen)
{
 char * newBuf = new char[pLen+1];
 char Ctemp[4];
 memset(Ctemp,0,4);

 int i =0;
 int j = 0;
 
 while(i < pLen)
 {
  if(pText[i] > 0)
{
newBuf[j++] = pText[i++];
}
else                 
{
WCHAR Wtemp;
UTF_8ToUnicode(&Wtemp,pText + i);

UnicodeToGB2312(Ctemp,Wtemp);
    
newBuf[j] = Ctemp[0];
newBuf[j + 1] = Ctemp[1];

i += 3;    
j += 2;   
}
 }
 newBuf[j] = '\0';
 
 pOut = newBuf;
 delete []newBuf;
 
 return; 
}

#2


该回复于2010-12-02 17:25:05被版主删除

#3


unicode到utf8时你就使用WideCharToMultiByte不就行了吗?

#4



void ConvertGBKToUtf8(CString& strGBK) 
{
    int len=MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, NULL,0);
    unsigned short * wszUtf8 = new unsigned short[len+1];
    memset(wszUtf8, 0, len * 2 + 2);
    MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, wszUtf8, len);

    len = WideCharToMultiByte(CP_UTF8, 0, wszUtf8, -1, NULL, 0, NULL, NULL); 
    char *szUtf8=new char[len + 1];
    memset(szUtf8, 0, len + 1);
    WideCharToMultiByte (CP_UTF8, 0, wszUtf8, -1, szUtf8, len, NULL,NULL);

    strGBK = szUtf8;
    delete[] szUtf8;
    delete[] wszUtf8;
}

#1




void CChineseCodeLib::UTF_8ToUnicode(WCHAR* pOut,char *pText)
{
char* uchar = (char *)pOut;

uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);
uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F);

return;
}

void CChineseCodeLib::UnicodeToGB2312(char* pOut,unsigned short uData)
{
WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(WCHAR),NULL,NULL);
return;
}

void CChineseCodeLib::Gb2312ToUnicode(WCHAR* pOut,char *gbBuffer)
{
::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);
return;
}

void CChineseCodeLib::UnicodeToUTF_8(char* pOut,WCHAR* pText)
{
// 注意 WCHAR高低字的顺序,低字节在前,高字节在后
/*
char* pchar = (char *)pText;

pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));
pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2)) + ((pchar[1] & 0xC0) >> 6);
pOut[2] = (0x80 | (pchar[0] & 0x3F));
*/
  
 
    int i=0;
#define putchar(a)     pOut[i++]=(BYTE)a;

    WCHAR c=pText[0];
    if (c < 0x80)
    {
        putchar (c);
    }
    else if (c < 0x800)
    {
        putchar (0xC0 | c>>6);
        putchar (0x80 | c & 0x3F);
    }
    else if (c < 0x10000)
    {
        putchar (0xE0 | c>>12);
        putchar (0x80 | c>>6 & 0x3F);
        putchar (0x80 | c & 0x3F);
    }
    else if (c < 0x200000)
    {
        putchar (0xF0 | c>>18);
        putchar (0x80 | c>>12 & 0x3F);
        putchar (0x80 | c>>6 & 0x3F);
        putchar (0x80 | c & 0x3F);
    }
    
return;
}

void CChineseCodeLib::GB2312ToUTF_8(CString& pOut,char *pText, int pLen)
{
if( pLen==0 )
{
return;
}
char buf[4];
char* rst = new char[pLen*6];

memset(buf,0,4);
memset(rst,0,pLen*6);

int i = 0;
int j = 0;
while(i < pLen)
{
//如果是英文直接复制就可以
if( *(pText + i) >= 0)
{
rst[j++] = pText[i++];
}
else
{
WCHAR pbuffer;
Gb2312ToUnicode(&pbuffer,pText+i);

UnicodeToUTF_8(buf,&pbuffer);

unsigned short int tmp = 0;
tmp = rst[j] = buf[0];
tmp = rst[j+1] = buf[1];
tmp = rst[j+2] = buf[2];


j += 3;
i += 2;
}
}
rst[j] = '\0';

//返回结果
pOut = rst;
delete[] rst;

return;
}

void CChineseCodeLib::UTF_8ToGB2312(CString &pOut, char *pText, int pLen)
{
 char * newBuf = new char[pLen+1];
 char Ctemp[4];
 memset(Ctemp,0,4);

 int i =0;
 int j = 0;
 
 while(i < pLen)
 {
  if(pText[i] > 0)
{
newBuf[j++] = pText[i++];
}
else                 
{
WCHAR Wtemp;
UTF_8ToUnicode(&Wtemp,pText + i);

UnicodeToGB2312(Ctemp,Wtemp);
    
newBuf[j] = Ctemp[0];
newBuf[j + 1] = Ctemp[1];

i += 3;    
j += 2;   
}
 }
 newBuf[j] = '\0';
 
 pOut = newBuf;
 delete []newBuf;
 
 return; 
}

#2


该回复于2010-12-02 17:25:05被版主删除

#3


unicode到utf8时你就使用WideCharToMultiByte不就行了吗?

#4



void ConvertGBKToUtf8(CString& strGBK) 
{
    int len=MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, NULL,0);
    unsigned short * wszUtf8 = new unsigned short[len+1];
    memset(wszUtf8, 0, len * 2 + 2);
    MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, wszUtf8, len);

    len = WideCharToMultiByte(CP_UTF8, 0, wszUtf8, -1, NULL, 0, NULL, NULL); 
    char *szUtf8=new char[len + 1];
    memset(szUtf8, 0, len + 1);
    WideCharToMultiByte (CP_UTF8, 0, wszUtf8, -1, szUtf8, len, NULL,NULL);

    strGBK = szUtf8;
    delete[] szUtf8;
    delete[] wszUtf8;
}