因为我也没有找到更适合的参考资料,因此只能自己生成一份编码表,然后从中找出这些特征,不过大部份来说都是准确的,有些个别的外语,我也不知道是什么。(文 IT柏拉图)
至于这个表是干吗的,如果你想对用户输入的一些东西进行过滤或尝试识别乱码,或编码具于utf-8编码的分词系统,那么这些参考资料是很有意义的。
一、中文汉字区:
(1)生冷字:
0x3400--0x4DB5
(2)普通:
0x4E00--0x9FA5
(3)其它:
0xF900--0xFA2C
二、韩文区:
(1)韩文音标字符区
0x1100--0x11F9
0x3130--0x318E
(2)韩文:
0xAC00--0xD7A3
三、符号表情:
(1)分段字符(如:① ⑴ ⒈ )
0x2460--0x24E9
(2)制表附助、特殊字符等(┊┌┍ ▃ ▄ ▅)
0x2500--0x25FF
(3)实物体字符
0x2600--0x2671
0x2700--0x27FF
(4)全角括号(《》「」『』【】〔〕〖〗等)
0x3007--0x301A
(5)特殊序号或单位元素区(㈠ ㎎ ㎏ ㎡ 等)
0x3200--0x33FF
(6)与ANSI对应的全角字符
0xFF00--0xFF5E
对应: 0x0020--0xFF7E (即 ! -- ~ 的区间)
(7)其它特殊符号
0x2000--0x22FF
四、日本字符或假名符号区:
0x3041--0x30FF
0x3104--0x312A
0xFF66--0xFF9E
其中平假名:0x3041--0x3094
片假名:0x30A1--0x30FA
五、其它字条或音标区:
(1)罗马音标
0x00C0--0x0232
(2)类罗马音标或欧洲字符
0x0386--0x04F3
0x1E00--0x1EFF
0x1F00--0x1FFF
(3)阿拉伯语
0x0620--0x06FF
(4)佛教混合梵语
0x0904--0x0970
0x0A00--0x0AEF
0x0E00--0x0E32
六、unicode编码与UTF-8编码转换:
Unicode符号范围 | UTF-8编码方式
u0000 0000 - u0000 007F | 0xxxxxxx
u0000 0080 - u0000 07FF | 110xxxxx 10xxxxxx
u0000 0800 - u0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
转自:http://blog.sina.com.cn/s/blog_6f2274fb0100y0pg.html