必知必会话题之:字符编码精简汇总

日期：2022-05-29 栏目：程序人生浏览：次

一、编码的产生原因及发展原因

1.最初计算机源于美国,键盘上大家常见的这些字符用一个字节的7个bit来表示就满足了(最高位是符号位不动),这就是ascii码

2.随着计算机的普及发展,各国也需要将自己的文字字符加入进来,发现原有的ascii码已经不够用了,刚开始没想好,觉得用起来一个字节的符号bit位到了2^8的情况,

发现各国交流起来是有问题的,而且还有很多国家字符超级多...........

3.既然一个字节满足不了,我们就多个字节,于是美帝提出用一种标准方案,来展示世界上所有语言中的所有字符，出于这个目的，Unicode诞生了。

二、关于Unicode

1.Unicode 相当于是一本字典，记录着世界上所有字符对应的一个数字。 Unicode 给所有的字符指定了一个数字用来表示该字符。这表大家自行搜索下.

2.Unicode 它的想法很简单，就是为每个字符规定一个用来表示该字符的数字，仅此而已。没有说明这个数字在内存二进制中如何来存储.

这就引申出两个问题:

a.Unicode的编码方案会有多种.

b.数字的二进制在内存中高低端放置问题. BE LE

三、Unicode的各种编码方案的由来及优缺点 UTF-32

为了满足最初最原始的欲望,简单粗暴地将各国的字符放在里面,定长编码，字符统一使用 4 个字节

优点:编码简单快速

缺点:浪费存储空间,不适合网络传输

UTF-16

UTF-32既然太粗暴浪费空间,我们就做一个简单的划分:UTF-16 的编码长度要么是 2 个字节（U+0000 到 U+FFFF），要么是 4 个字节（U+010000 到 U+10FFFF）

具体实现细节,请自行查阅.

优点:一定程度缩减UTF-32的空间占用问题

确定:不利于空间的合理存储

UTF-8

UTF-8 使用变长字节进行字符编码，使用的字节数可变，这个变化是根据 Unicode 编号的大小有关，使用的字节个数从 1 到 4 个不等。划分方式参考下图

是最流行的编码的方式,原因很简单:在计算机速度突飞猛进的今天,编码解码速度基本上不是问题,所以存储空间是人们更加关心的问题.

UTF-8 的编码规则:

a. ASCII 码中的字符均用一个字节进行表示.

b.n字节的符号（4>=n>2）,第一个字节的前 n 位都设为 1，第 n+1 位设为 0，后面字节的前两位一律设为 10，剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

必知必会话题之:字符编码精简汇总

举个例子：比如说一个字符的 Unicode 编码是 2049，那么就需要三个字节(n = 3)。

这三个字节的情况如下

第一个字节第二个字节第三个字节
1110XXXX 10XXXXXX 10XXXXXX

根据规则，第一个字节的前 3 位都设为 1，第 4 位设为 0，则第一个字节为：110X XXXX，后面两个字节的前两位一律设为 10，格式如：10XX XXXX。

接下来的问题:这些X中需要填写什么东西呢?答案是编码的二进制,即将unicode的二进制从右到左依次放入对应的xxx位置中.

2049的二进制是1000 0000 0001那么填进去，这三个字节的情况就变成了，最后剩余的xxxx用0补上即可

第一个字节第二个字节第三个字节
1110XXXX 10100000 10000001
四、大端小端 1.概述:为什么会有大端小端的概念

计算机的内存是以字节为单位的,

而CPU的寄存器表示的数据是大于一个字节的,

那么就存在了一个问题,例如0x1234这样的数据如何放到内存中,供CPU寄存器进行读取使用呢?

0x12是高位,0x34是地位,这些数据放在内存的高低,就产生了高低位的说法.

内存地址内存中的数据
地址a+1 0x34
地址a 0x12

(大端存储:高位在低地址内存)

内存地址内存中的数据
地址a+1 0x12
地址a 0x34

(大端存储:高位在高地址内存)

各类CPU厂商大小端方式有差异, 通讯协议是大端的。

2.常见的字节序

常见CPU字节序

Big Endian : PowerPC、IBM、Sun
Little Endian : x86、DEC
ARM既可以工作在大端模式，也可以工作在小端模式。

常见文件字节序

Adobe PS – Big Endian
BMP – Little Endian
DXF(AutoCAD) – Variable
GIF – Little Endian
JPEG – Big Endian
MacPaint – Big Endian
RTF – Little Endian

PS:有人问了解这些有什么用,其实很简单因为你是做IT的,有些东西是基本功,且必知必会.

转载注明出处：https://www.heiqu.com/zzfxzx.html

必知必会话题之:字符编码精简汇总

相关推荐