utf-8汉字编码范围

时间:2025-01-29 17:46:39

网上一般给出的编码范围:

UTF-8 (Unicode)

  • u4e00-u9fa5 (中文)
  • x3130-x318F (韩文)
  • xAC00-xD7A3 (韩文)
  • u0800-u4e00 (日文)

实际上发现:
除了u4e00-u9fa5 (中文)之外,还有(0x3400, 0x4DB5)也是。

GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。

对应的utf8也进行了相应增加。