UTF-16 -- 顶级程序员也会忽略的系统编码问题，JDK 错了十年！

日期：2021-05-18 栏目：程序人生浏览：次

　　Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

　　Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为 17 组编排，0x0000 至 0x10FFFF，每组称为平面（Plane），而每平面拥有65536个码位，共1114112个。然而目前只用了少数平面。UTF-8、UTF-16、UTF-32 都是将数字转换到程序数据的编码方案。

　　UTF-16 是 Unicode字符编码五层次模型的第三层：字符编码表的一种实现方式。即把 Unicode 字符集的抽象码位映射为 16 位长的整数的序列 (即码元)，用于数据存储或传递。Unicode字符的码位，需要1个或者 2 个 16 位长的码元来表示，因此这是一个变长编码。

　　上为 UTF-16 编码的介绍，红字部分强调它是一个变长编码；但实际上很多对编码有理解的人也都以为它是固定长度编码。这个错误的认知在日常编程中似乎不会有什么问题，因为常用中文字符都可以用 1 个 16 位长的码元表示。但是，中文有近 8 万个字符，而 1 个 16 位长的码元最大值仅是 65535(0xffff)，所以超过一半的不常用中文字符被定义为扩展字符，这些字符需要用 2 个 16 位长的码元表示。

　　UTF-16 编码以16位无符号整数为单位。我们把 Unicode 编码记作 U。编码规则如下：

　　如果 U < 0x10000，U 的 UTF-16 编码就是 U 对应的16位无符号整数（为书写简便，下文将16位无符号整数记作WORD）。

　　如果 U >= 0x10000，我们先计算 U' = U - 0x10000，然后将 U' 写成二进制形式：yyyy yyyy yyxx xxxx xxxx，U 的 UTF-16 编码（二进制）就是：110110yyyyyyyyyy 110111xxxxxxxxxx。

　　为什么 U' 可以被写成 20 个二进制位？Unicode 的最大码位是 0x10FFFF，减去 0x10000 后，U' 的最大值是0xFFFFF，所以肯定可以用 20 个二进制位表示。例如：Unicode 编码 0x20C30，减去 0x10000 后，得到 0x10C30，写成二进制是：0001 0000 1100 0011 0000。用前10位依次替代模板中的 y，用后 10 位依次替代模板中的 x，就得到：1101100001000011 1101110000110000，即 0xD843 0xDC30。

　　按照上述规则，Unicode 编码 0x10000-0x10FFFF 的 UTF-16 编码有两个 WORD，第一个 WORD 的高 6 位是 110110，第二个 WORD 的高 6 位是 110111。可见，第一个 WORD 的取值范围（二进制）是 11011000 00000000到 11011011 11111111，即 0xD800-0xDBFF。第二个 WORD 的取值范围（二进制）是 11011100 00000000到 11011111 11111111，即 0xDC00-0xDFFF。

　　为了将一个 WORD 的 UTF-16 编码与两个WORD 的 UTF-16 编码区分开来，Unicode 编码的设计者将0xD800-0xDFFF 保留下来，并称为代理区（Surrogate）：

转载注明出处：https://www.heiqu.com/wpzzdg.html

UTF-16 -- 顶级程序员也会忽略的系统编码问题，JDK 错了十年！

相关推荐