UTF8存储与显示

时间:2022-06-15 23:03:07

存储肯定是二进制存储,同一个字符(汉子)在不同的字符集下有对应的值,一个字符集相当于一个密码表,键名为字符,键值为二进制数(可表示为十进制,十六进制)

UTF8是一个unicode字符集的编码规则,也可以看做是根据unicode字符集根据一个规则计算出的另一个字符集。但是从字符集的原始含义区分来说,uft8只是一种编码unicode的规则。
例如:汉子“一”,utf8对应的值为14989440,十六进制为0xE4B880,二进制为
    1110 0100 1011 1000 1000 0000共三字节存储,八位一字节
         E    4    B    8    8    0

显示识别码为ASCII码,也就是说显示的原始编码为ASCII,如果显示使用utf8编码,也是把收到的ascii反转为对应的二进制,然后把二进制再按照uft8规则重组,最后根据重组后的值找到uft8字符集对应的键名(即汉子)
ASCII是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646
ASCII一般为127位,扩展后有256位。

如果要显示汉子“一”,展示工具需要设置为uft8识别,然后
     将1110 0100 1011 1000 1000 0000按每个字节连接起来,
     E    4    B    8    8    0
          228        184       128   每个字节对应的十进制数
           ∑                        每个十进制数对应的ascii的字符
输出ascii对应的字符到浏览器就可以在浏览器看到汉子“一”