最近遇到一个在C语言当中处理中文的问题,因为汉字和ascii不同,汉字是多字节编码方式,ascii只用一个字节表示,所以在用c语言提供的strlen函数得到的长度是字节长度; 以下都是utf-8编码方式,为了得到一个字符(汉字和ascii)有几种处理方式:
1. 自己写程序判断是否为汉字,通过第一个字节判断,以下是我写的一部分代码;
2. 用内置的wchar_t类型,
1). wchar_t ws[]=L"北京bus";
这样用wcslen(ws)结果就为 5,
这是必须设置 本地编码方式 setlocale(LC_ALL,"zh_CN.UTF-8");
2).读一个文件后得到的数据,要使数据为wchar_t ,就需要进行字符串转换了.用到函数 mbstowcs,以下是我写的一个读文本文 件然后转换的程序
如果 wchar_t 转换为char 类型,可以用函数 wcstombs