unicode utf-8 gb18030 gb2312 gbk各种编码对比

日期：2020-05-12 栏目：破解天下浏览：次

但是我这个的特点是追究原理，我在乎的事情都想弄明白，于是各个qq群依次发信息，没人理会。唉，郁闷。只好自己google it and teach myself 。下面是详细介绍。

还有对各方求助没有人理会，我有些个人想法。现在的人已经很少有人去深究理论了，人们的观念是得过且过，人们通常只是知道什么，不知道为什么。对编程来说，个人认为这是很悲哀的事情，也是非常危险的事情。我想可能这也是中国的IT落后于美国的原因，我希望中国的编程人员能够好好想想了。

下面的东西是从网上查到的

Unicode 的编码和实现

大概来说，Unicode 编码系统可分为编码方式和实现方式两个层次。

编码方式

Unicode 的编码方式与 ISO 10646 的通用字符集（Universal Character Set，UCS）概念相对应，目前实际应用的 Unicode 版本对应于 UCS-2，使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示 2¹⁶ 即 65536 个字符。基本满足各种语言的使用。实际上目前版本的 Unicode 尚未填充满这16位编码，保留了大量空间作为特殊使用或将来扩展。

上述16位 Unicode 字符构成基本多文种平面（Basic Multilingual Plane，简称 BMP）。最新（但未实际广泛使用）的 Unicode 版本定义了16个辅助平面，两者合起来至少需要占据21位的编码空间，比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间，与 UCS-4 保持一致。未来版本会扩充到 ISO 10646-1 实现级别3，即涵盖 UCS-4 的所有字符。UCS-4 是一个更大的尚未填充完全的31位字符集，加上恒为0的首位，共需占据32位，即4字节。理论上最多能表示 2³¹ 个字符，完全可以涵盖一切语言所用的符号。

BMP 字符的 Unicode 编码表示为 U+hhhh，其中每个 h 代表一个十六进制数位。与 UCS-2 编码完全相同。对应的4字节 UCS-4 编码后两个字节一致，前两个字节的所有位均为0。

关于 Unicode 和 ISO 10646 及 UCS 的详细关系，请参看通用字符集。

实现方式

Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中，由于不同

转载注明出处：http://www.heiqu.com/1734.html

unicode utf-8 gb18030 gb2312 gbk各种编码对比

编码方式

实现方式

相关推荐