实际就是我自己测试随便乱输入的,是因为在测试的时候发现有些文件读不了
折腾一天,发现可以正确读取并正确显示的文件都是ANSI格式
UFT-8 还有UNICODE似乎就不行,情况是这样的,这两种格式,中文会乱码
至于英文就不会,对编码不太熟悉,需要补点什么知识?参考windows程序设计好吗?
另外请求一个解决方案,搜索好久也没满意的结果
就是想编写一个程序,正确的读取一个TXT文件的内容并正确打印到控制台窗口就可以
TXT最好格式是UTF-8或支持UNICODE的,希望可以给个例子,THANKS
4 个解决方案
#1
unicode编程、编译器等,字符为宽格式了wchar,替换char,字符/字符串族函数也要选择w开头的版本,编译器语言参考手册中可以查阅。
#2
楼上大哥的意思是用WCHAR_T就可读取了吗》?不乱吗? 可以给个例子吗
#3
能正常显示的只有系统内码
win支持的内码,mbcs和utf16,不支持utf8
其他的需要转换到这两者之一再显示
MultiByteToWideChar也支持utf8到utf16的转换,总之是不支持直接显示utf8字符串
win支持的内码,mbcs和utf16,不支持utf8
其他的需要转换到这两者之一再显示
MultiByteToWideChar也支持utf8到utf16的转换,总之是不支持直接显示utf8字符串
#4
对电脑而言没有乱码,只有二进制字节;对人脑才有乱码。啊 GBK:0xB0 0xA1,Unicode-16 LE:0x4A 0x55,Unicode-16 BE:0x55 0x4A,UTF-8:0xE5 0x95 0x8A
// UTF-8 编码字符理论上可以最多到 6个字节长,但目前全世界的所
// 有文字和符号种类加起来也只要编到 4个字节长就够了。
// UTF-8 是以 8位(即 1个字节)为单元对原始码进行编码(注意一
// 点:这里所讲的原始码都是指Unicode码),并规定:多字节码(2个字
// 节以上才称为多字节)以转换后第1个字节起头的连续“1”的数目(这
// 些连续“1”称为标记位),表示转换成几个字节:“110”连续两个
// “1”,表示转换结果为2个字节,“1110”表示3个字节,而“11110”
// 则表示4个字节……跟随在标记位之后的“0”,其作用是分隔标记位和
// 字符码位。第2~第4个字节的起头两个位固定设置为“10”,也作为标
// 记,剩下的6个位才做为字符码位使用。
// 这样,2字节UTF-8码剩下11个字符码位,可用以转换0080~07FF的
// 原始字符码,3字节剩下16个字符码位,可用以转换0800~FFFF的原始字
// 符码,由此类推。编码方式的模板如下:
//
// 原始码(16进制) UTF-8编码(二进制)
// --------------------------------------------
// 0000 - 007F 0xxxxxxx
// 0080 - 07FF 110xxxxx 10xxxxxx
// 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
// ……
// --------------------------------------------
//
// 模板中的“x”表示字符码。
// Ascii码<007F,编为1个
// 字节的UTF-8码。汉字的 Unicode编码范围为0800-FFFF,所以被编为
// 3个字节的UTF-8码。
// 例如“汉”字的Unicode编码是6C49,6C49在0800-FFFF之间,所以
// 要用3个字节的模板:1110wwww 10xxxxyy 10yyzzzz。
// 6 C 4 9
// 0110 1100 0100 1001
// wwww xxxx yyyy zzzz
// wwww xxxxyy yyzzzz
// 1110wwww 10xxxxyy 10yyzzzz。
// 11100110 10110001 10001001
// E 6 B 1 8 9
//“汉”字的UTF-8编码是E6 B1 89
#1
unicode编程、编译器等,字符为宽格式了wchar,替换char,字符/字符串族函数也要选择w开头的版本,编译器语言参考手册中可以查阅。
#2
楼上大哥的意思是用WCHAR_T就可读取了吗》?不乱吗? 可以给个例子吗
#3
能正常显示的只有系统内码
win支持的内码,mbcs和utf16,不支持utf8
其他的需要转换到这两者之一再显示
MultiByteToWideChar也支持utf8到utf16的转换,总之是不支持直接显示utf8字符串
win支持的内码,mbcs和utf16,不支持utf8
其他的需要转换到这两者之一再显示
MultiByteToWideChar也支持utf8到utf16的转换,总之是不支持直接显示utf8字符串
#4
对电脑而言没有乱码,只有二进制字节;对人脑才有乱码。啊 GBK:0xB0 0xA1,Unicode-16 LE:0x4A 0x55,Unicode-16 BE:0x55 0x4A,UTF-8:0xE5 0x95 0x8A
// UTF-8 编码字符理论上可以最多到 6个字节长,但目前全世界的所
// 有文字和符号种类加起来也只要编到 4个字节长就够了。
// UTF-8 是以 8位(即 1个字节)为单元对原始码进行编码(注意一
// 点:这里所讲的原始码都是指Unicode码),并规定:多字节码(2个字
// 节以上才称为多字节)以转换后第1个字节起头的连续“1”的数目(这
// 些连续“1”称为标记位),表示转换成几个字节:“110”连续两个
// “1”,表示转换结果为2个字节,“1110”表示3个字节,而“11110”
// 则表示4个字节……跟随在标记位之后的“0”,其作用是分隔标记位和
// 字符码位。第2~第4个字节的起头两个位固定设置为“10”,也作为标
// 记,剩下的6个位才做为字符码位使用。
// 这样,2字节UTF-8码剩下11个字符码位,可用以转换0080~07FF的
// 原始字符码,3字节剩下16个字符码位,可用以转换0800~FFFF的原始字
// 符码,由此类推。编码方式的模板如下:
//
// 原始码(16进制) UTF-8编码(二进制)
// --------------------------------------------
// 0000 - 007F 0xxxxxxx
// 0080 - 07FF 110xxxxx 10xxxxxx
// 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
// ……
// --------------------------------------------
//
// 模板中的“x”表示字符码。
// Ascii码<007F,编为1个
// 字节的UTF-8码。汉字的 Unicode编码范围为0800-FFFF,所以被编为
// 3个字节的UTF-8码。
// 例如“汉”字的Unicode编码是6C49,6C49在0800-FFFF之间,所以
// 要用3个字节的模板:1110wwww 10xxxxyy 10yyzzzz。
// 6 C 4 9
// 0110 1100 0100 1001
// wwww xxxx yyyy zzzz
// wwww xxxxyy yyzzzz
// 1110wwww 10xxxxyy 10yyzzzz。
// 11100110 10110001 10001001
// E 6 B 1 8 9
//“汉”字的UTF-8编码是E6 B1 89