授之以鱼不如授之以渔
本篇主要针对于Windows编程过程中遇到字符串转换的一些问题,因为讲的比较详细,需要大家仔细读下去,读完之后,你就会豁然开朗(如果不想刨根问底,直接看最后的举例说明即可)。以后对于这样的问题你都能解决了。
基本概念
再解决问题之前要先弄懂一些概念。
WIndows里面有两种字符编码方式,分别为ANSI和UNICODE编码。
-
什么是ANSI,什么又是UNICODE呢?
ANSI字符集,它们正式的名称应该是多字节字符系统(Multi-Byte Chactacter System,即MBCS)。Unicode码也是一种国际标准编码,采用二个字节编码,与ANSI码不兼容。
ANSI (使用”“)中的字符采用8bit,而UNICODE (使用L”“)中的字符采用16bit。对于字符来说ANSI以单字节存放英文字符,以双字节存放中文等字符,而Unicode,英文和中文的字符都以双字节存放。 8bit的ANSI编码只能表示256种字符,表示26个英文字母是绰绰有余的,但是表示汉字,韩国语等有着成千上万个字符的非西方字符肯定就不够了,正是如此才引入了UNICODE标准。
那么ANSI类型的字符和UNICODE类型的字符在Windows中如何定义,如何使用呢? 定义使用
因为Windows支持两种字符串,这样对应的就有了两套字符串处理函数,比如:strlen和wcslen,分别用于处理两种字符串
ANSI:即char,可用字符串处理函数:strcat( ),strcpy( ), strlen( )等 以str打头的函数。
UNICODE:即wchar_t 可用字符串处理函数:wcscat(),wcscpy(),wcslen()等 以wcs打头的函数。
补充:
char :单字节变量类型,最多表示256个字符,
wchar_t :宽字节变量类型(即:unsigned short类型),用于表示Unicode
Windows(MFC)中的实现
Windows既支持ANSI又支持UNICODE,在编写代码过程中不可能在要求类型转换的时候,重新改变字符串的类型,和使用于字符串上的操作函数。为此, 标准C运行期库和Windows 提供了宏定义的方式。
在C语言里面提供了 _UNICODE宏(有下划线),在Windows里面提供了UNICODE宏(无下划线),只要定了_UNICODE宏和UNICODE宏,系统就会自动切换到UNICODE版本,否则,系统按照ANSI的方式进行编译和运行。
即:
_UNICODE宏用于C运行期头文件,
UNICODE宏则用于Windows头文件.
只定义了宏并不能实现自动的转换,他还需要一系列的字符定义支持。为了存储这样的通用字符,就有了TCHAR LPTSTR这样一类通用类型。
-
TCHAR
如果定义了UNICODE宏则TCHAR被定义为wchar_t。
typedef wchar_t TCHAR;
否则TCHAR被定义为char
typedef char TCHAR; -
2.LPTSTR
如果定义了UNICODE宏则LPTSTR被定义为LPWSTR。
typedef LPTSTR LPWSTR;
否则TCHAR被定义为char
typedef LPTSTR LPSTR;
当没有定义_UNICODE宏时,TCHAR = char,_tcslen =strlen
当定义了_UNICODE宏时,TCHAR = wchar_t , _tcslen = wcslen
T是非常有意思的一个符号(TCHAR、LPCTSTR、LPTSTR、_T()、_TEXT()…),它表示使用一种中间类型,既不明确表示使用 MBCS,也不明确表示使用 UNICODE。那到底使用哪种字符集?编译的时候才决定
解决的方法
我们一般用这几个宏定义(_T、TEXT(“”)和L”” )来解决字符串类型的转换问题,那这几个宏分别代表什么含义呢?
1. 在字符串前加一个L作用:
如 L”我的字符串” 表示将ANSI字符串转换成unicode的字符串,就是每个字符占用两个字节。
strlen("asd") = 3;
strlen(L"asd") = 6;
2. _T的作用
_T宏可以把一个引号引起来的字符串,根据你的环境设置,使得编译器会根据编译目标环境选择合适的(Unicode还是ANSI)字符处理方式
如果你定义了UNICODE,那么_T宏会把字符串前面加一个L。这时 _T(“ABCD”) 相当于 L”ABCD” ,这是宽字符串。
如果没有定义,那么_T宏不会在字符串前面加那个L,_T(“ABCD”) 就等价于 “ABCD”
3._T _TEXT、TEXT使用说明
我们经常见这三个符号,那他们到底有啥区别呢?其实,_T、_TEXT、TEXT 三者效果相同
Egg:
TCHAR szStr1[] = TEXT("str1");
char szStr2[] = "str2";
WCHAR szStr3[] = L("str3");
那么第一句话在定义了UNICODE时会解释为第三句话,没有定义时就等于第二句话。
但二句话无论是否定义了UNICODE都是生成一个ANSI字符串,而第三句话总是生成UNICODE字符串。
为了程序的可移植性,建议都用第一种表示方法。
但在某些情况下,某个字符必须为ANSI或UNICODE,那就用后两种方法。
举例说明
讲了那么多,相信小伙伴们已经知道了原因,我就简单的用一个例子说一下。以MessageBox()函数举例,TextOut()也一样。
int WINAPI MessageBox(HWND hWnd,LPCTSTR lpText,LPCTSTR lpCaption,UINT uType);
LPCTSTR是一个不确定的类型,所以我们写代码的时候也可以定义一个不确定的类型
Egg:
TCHAR szBuffer[10]=TEXT("str1") ; //灵活的定义数组
//LPTSTR szBuffer1 = new TCHAR[100];//灵活的定义指针
MessageBox(szBuffer, _TEXT("123"), MB_CANCELTRYCONTINUE);//这里的LPCTSTR对应于_TEXT()这样类型可以任意转换,不管是什么类型的代码都不会出错
补充:VS2015 设置字符集的方法
项目设置:项目–属性–配置属性–常规–字符集–使用Unicode字符集/使用多字节字符集
如果喜欢,就点个赞吧O_MMMM_O