编码史记

日期：2020-05-12 栏目：破解天下浏览：次

字符编码的故事
字符是什么
字符是什么？就是有意义的图形，比如a，中等。在不同的国家代表不同的意思。

但是在计算机世界中只有0和1，好了，如何用0和1将这些字符表示出来呢？这就是编码存在的意义。

编码一点也不高深，就是一个计算机的01和字符ab的简单映射。

于是故事开始了...
很久很久以前，计算机世界只有美国人。美国人的文字造诣很低的，他们的所有文字就只有24个字母，甚至加上大写和小写，阿拉伯数字，计算机中的控制符（回车啥的）都不超过256个（只有127个）。于是，对于他们来说，很自然，那么计算机中用8位就可以表示他们的所有字符了吧。于是他们将8位称作一个字节，计算机的8位表示的每个数字对应了一个英文字符，画了一张表（ASCII码表）。最早的编码AscII码出现了。

欧洲人出场了。欧洲是有好多个国家的，他们的每个国家也都有自己的文字，比如拉丁文，希腊文等。怎么办呢？于是想到，你美国人指定的ASCII码表里面不是只有127个字符吗，后面128-255的字符不是说待定吗，好吧，我们就不客气了。于是欧洲人就将各种奇怪的语言塞入127后面的字符中，形成了一系列的ISO 8859字符集。比如希腊文塞入ASCII，就形成了ISO/IEC 8859-7，西欧语种塞入ASCII就形成了ISO/IEC 8859-1，ISO/IEC 8859-1也叫做latin-1。（对，就是mysql里面经常见到的编码）

下面是ISO 8859现有的15个字符集

ISO/IEC 8859-1 (Latin-1) - 西欧语言
ISO/IEC 8859-2 (Latin-2) - 中欧语言
ISO/IEC 8859-3 (Latin-3) - 南欧语言。世界语也可用此字符集显示。
ISO/IEC 8859-4 (Latin-4) - 北欧语言
ISO/IEC 8859-5 (Cyrillic) - 斯拉夫语言
ISO/IEC 8859-6 (Arabic) - 阿拉伯语
ISO/IEC 8859-7 (Greek) - 希腊语
ISO/IEC 8859-8 (Hebrew) - 希伯来语（视觉顺序）
ISO 8859-8-I - 希伯来语（逻辑顺序）
ISO/IEC 8859-9（Latin-5 或 Turkish）- 它把Latin-1的冰岛语字母换走，加入土耳其语字母。
ISO/IEC 8859-10（Latin-6 或 Nordic）- 北日耳曼语支，用来代替Latin-4。
ISO/IEC 8859-11 (Thai) - 泰语，从泰国的 TIS620 标准字集演化而来。
ISO/IEC 8859-13（Latin-7 或 Baltic Rim）- 波罗的语族
ISO/IEC 8859-14（Latin-8 或 Celtic）- 凯尔特语族
ISO/IEC 8859-15 (Latin-9) - 西欧语言，加入Latin-1欠缺的芬兰语字母和大写法语重音字母，以及欧元（?）符号。
ISO/IEC 8859-16 (Latin-10) - 东南欧语言。主要供罗马尼亚语使用，并加入欧元符号。

接着伟大的中国人也开始使用上电脑了。中文可不得了，文字博大精深，字符远远超过了256个。所以我们无法使用ASCII的扩展了。怎么办呢？ 1981年的时候，国家派一批人来做了这个事情，他们统计出所有的中文大概有6000多个字符（后来证明这些人的水品也是有限，好多字符都没有搜出来，于是就有了多种的中文编码），用两个字节（16bit）来表示，16bit能表示的是65536个字符，太够了。我们将16bit分为前8bit和后8bit

转载注明出处：http://www.heiqu.com/1629.html

编码史记

相关推荐