ASCII、GB2312、GBK、Unicode、UTF-8、ANSI 编码详解整理

[編輯] [转简体]

創建於 2024-06-15 | 修改於 2024-06-20

作者：huidong | 分類：【編程】編碼

[ 58 瀏覽 0 評論 11 贊 9 踩 ]

概要

正文

ASCII 美国信息交换标准代码（最早的编码规则）

使用 7 位二进制数（最高位二进制为 0）来表示所有的大写和小写字母、数字 0 到 9、标点符号以及在美式英语中使用的特殊控制字符，总共为128个。例如：

二进制	字符	说明
0000 0000	NUL	空字符
0010 0000	（space）	空格键
0011 0000	0	字符0
0110 0001	a	字符a
0111 1111	DEL (delete)	删除

GB2312 汉字内码扩展规范

GB2312 编码，就是在 ASCII 编码的基础上进行扩充的，它规定如下：

ASCII 的字符完整地包含在 GB2312 里，编码不变，仍然是以 0 开头，用一个字节来表示一个字符；对于 ASCII 没有的字符，就用 1 开头来区分，用两个字节合起来表示一个字符。

这样，在解码的时候，遇到字节是以 0 开头的，就知道这一个字节就表示了一个字符；遇到字节是以 1 开头的，就知道要加上下一个字节合起来表示一个字符。这样就在 GB2312 中既把 ASCII 的字符包含了进来，又能将它们区分出来，能达到兼容的效果了。

GB2312 能够表示很多简体汉字，但是繁体怎么办呢？台湾群众很不满啊，于是也自己搞了一套编码，于是 BIG-5 诞生了。此外，GB2312 仅仅可以表示 6000 多个常用汉字，那么其它不常用的怎么办？于是进行了扩展，把之前 GB2312 中没有利用的位好好利用起来，就成了 GBK，其中 K 为“扩展”的“扩”（kuo4）。GBK 共收入 21886 个汉字和图形符号，包括：

GB 2312 中的全部汉字、非汉字符号。
BIG-5 中的全部汉字。
与 ISO 10646 相应的国家标准 GB 13000 中的其它 CJK 汉字，以上合计 20902 个汉字。
其它汉字、部首、符号，共计 984 个。

GBK 向下与 GB 2312 完全兼容，向上支持 ISO 10646 国际标准，在前者向后者过渡过程中起到的承上启下的作用。

Unicode 兼容所有国家文字的字符集（万国码、统一码）

由于世界国家众多，语言差别也很大。ISO（国际标准化组织）决定定义一套编码方案来解决所有国家的编码问题。ISO对 Unicode 编码规定如下：

每个字符必须使用两个字节，即用 16 位二进制来表示所有的字符，对于 ASCII 编码表里的字符，保持其编码不变，只是将长度扩展到了 16 位，其他国家的字符全部统一重新编码。

由于传输 ASCII 表里的字符时，实际上可以只用一个字节就可以表示，所以，这种编码方案在传输数据比较浪费带宽，存储数据比较浪费硬盘，为了解决这个问题，就在 Unicode 的基础上，定义了一套编码规则，这个新的编码规则就是UTF-8（Universal Character Set/Unicode Transformation Format - 8），采用 1-4 个字节进行传输和存储数据。

具体规则：

1）对于单字节的符号，字节的第一位设为 0 ，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。

2）对于 n 字节的符号（n > 1），第一个字节的前 n 位都设为 1 ，第 n + 1 位设为 0 ，后面字节的前两位一律设为 10 。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

UTF-8区分每个字符的开始是根据字符的高位字节来区分的，方式如下表：

二进制	表达字符所需字节数
0xxxxxxx	一个字节
110xxxxx 10xxxxxx	二个字节
1110xxxx 10xxxxxx 10xxxxxx	三个字节
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	四个字节

ANSI 多字节字符集

为了使计算机支持多种语言，不同的国家和地区制定了不同的标准。

ANSI表示英文字符时用一个字节，表示中文用两个字节。由此产生了 GB2312，BIG-5，JIS 等各自的编码标准。简体中文系统下，ANSI 编码可以是 GB2312 或者 GBK 编码，在日文操作系统下 ANSI 编码代表 JIS 编码，而韩文系统中 ANSI 编码其实是 EUC-KR 编码。

因此 ANSI 并不是某一种特定的字符编码，而是在不同的系统中，ANSI 表示不同的编码。Windows 系统通过 Windows code pages 的值来确定当前系统的编码方式。

参考资料

https://www.cnblogs.com/xtuz/p/12448200.html

https://cloud.tencent.com/developer/article/1674073

<p><span style="font-size: 20px;"><strong>ASCII</strong></span><strong>    </strong>美国信息交换标准代码（最早的编码规则）</p><p>使用 7 位二进制数（最高位二进制为 0）来表示所有的大写和小写字母、数字 0 到 9、标点符号以及在美式英语中使用的特殊控制字符，总共为128个。例如：</p><table><thead><tr class="firstRow"><th>二进制</th><th>字符</th><th>说明</th></tr></thead><tbody><tr><td>0000 0000</td><td>NUL</td><td>空字符</td></tr><tr><td>0010 0000</td><td>（space）</td><td>空格键</td></tr><tr><td>0011 0000</td><td>0</td><td>字符0</td></tr><tr><td>0110 0001</td><td>a</td><td>字符a</td></tr><tr><td>0111 1111</td><td>DEL (delete)</td><td>删除</td></tr></tbody></table><p><strong><br/></strong></p><p><span style="font-size: 20px;"><strong>GB2312    </strong></span>汉字内码扩展规范</p><p>GB2312 编码，就是在 ASCII 编码的基础上进行扩充的，它规定如下：</p><p>ASCII 的字符完整地包含在 GB2312 里，编码不变，仍然是以<strong> 0 </strong>开头，用一个字节来表示一个字符；对于 ASCII 没有的字符，就用<strong> 1 </strong>开头来区分，用两个字节合起来表示一个字符。</p><p>这样，在解码的时候，遇到字节是以 <strong>0 </strong>开头的，就知道这一个字节就表示了一个字符；遇到字节是以 <strong>1 </strong>开头的，就知道要加上下一个字节合起来表示一个字符。这样就在 GB2312 中既把 ASCII 的字符包含了进来，又能将它们区分出来，能达到兼容的效果了。</p><p>GB2312 能够表示很多简体汉字，但是繁体怎么办呢？台湾群众很不满啊，于是也自己搞了一套编码，于是 BIG-5 诞生了。此外，GB2312 仅仅可以表示 6000 多个常用汉字，那么其它不常用的怎么办？于是进行了扩展，把之前 GB2312 中没有利用的位好好利用起来，就成了 GBK，其中 K 为“扩展”的“扩”（kuo4）。GBK 共收入 21886 个汉字和图形符号，包括：</p><ul class=" list-paddingleft-2"><li><p>GB 2312 中的全部汉字、非汉字符号。</p></li><li><p>BIG-5 中的全部汉字。</p></li><li><p>与 ISO 10646 相应的国家标准 GB 13000 中的其它 CJK 汉字，以上合计 20902 个汉字。</p></li><li><p>其它汉字、部首、符号，共计 984 个。</p></li></ul><p>GBK 向下与 GB 2312 完全兼容，向上支持 ISO 10646 国际标准，在前者向后者过渡过程中起到的承上启下的作用。</p><p><br/></p><p><span style="font-size: 20px;"><strong>Unicode    </strong></span>兼容所有国家文字的字符集（万国码、统一码）</p><p>由于世界国家众多，语言差别也很大。ISO（国际标准化组织）决定定义一套编码方案来解决所有国家的编码问题。ISO对 Unicode 编码规定如下：</p><p>每个字符必须使用两个字节，即用 16 位二进制来表示所有的字符，对于 ASCII 编码表里的字符，保持其编码不变，只是将长度扩展到了 16 位，其他国家的字符全部统一重新编码。</p><p>由于传输 ASCII 表里的字符时，实际上可以只用一个字节就可以表示，所以，这种编码方案在传输数据比较浪费带宽，存储数据比较浪费硬盘，为了解决这个问题，就在 Unicode 的基础上，定义了一套编码规则，这个新的编码规则就是UTF-8（Universal 
Character Set/Unicode Transformation Format - 8），采用 1-4 个字节进行传输和存储数据。</p><p>具体规则：<br/></p><p>1）对于单字节的符号，字节的第一位设为 0 ，后面7位为这个符号的 Unicode 码。因此对于 英语字母，UTF-8 编码和 ASCII 码是相同的。<br/></p><p>2）对于 n 字节的符号（n > 1），第一个字节的前 n 位都设为 1 ，第 n + 1 位设为 0 ，后面字节的前两位一律设为 10 。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。</p><p>UTF-8区分每个字符的开始是根据字符的高位字节来区分的，方式如下表：</p><table><thead><tr class="firstRow"><th>二进制</th><th>表达字符所需字节数</th></tr></thead><tbody><tr><td>0xxxxxxx</td><td>一个字节</td></tr><tr><td>110xxxxx 10xxxxxx</td><td>二个字节</td></tr><tr><td>1110xxxx 10xxxxxx 10xxxxxx</td><td>三个字节</td></tr><tr><td>11110xxx 10xxxxxx 10xxxxxx 10xxxxxx</td><td>四个字节</td></tr></tbody></table><p><br/></p><p><span style="font-size: 20px;"><strong>ANSI</strong>    </span>多字节字符集</p><p>为了使计算机支持多种语言，不同的国家和地区制定了不同的标准。</p><p>ANSI表示英文字符时用一个字节，表示中文用两个字节。由此产生了 GB2312，BIG-5，JIS 等各自的编码标准。简体中文系统下，ANSI 编码可以是 GB2312 或者 GBK 编码，在日文操作系统下 ANSI 编码代表 JIS 编码，而韩文系统中 ANSI 编码其实是 EUC-KR 编码。</p><p>因此 ANSI 并不是某一种特定的字符编码，而是在不同的系统中，ANSI 表示不同的编码。W<span class="mod-overview__keyword">indows</span> 系统通过 Windows code pages 的值来确定当前系统的编码方式。</p><p><br/></p><p><strong>参考资料<br/></strong></p><p><a href="https://www.cnblogs.com/xtuz/p/12448200.html">https://www.cnblogs.com/xtuz/p/12448200.html</a> </p><p><a href="https://cloud.tencent.com/developer/article/1674073">https://cloud.tencent.com/developer/article/1674073</a>   <br/></p>

[贊 11] [踩 9]

評論區 0 條評論

+ 添加評論

昵稱：		必填
聯系方式：		公開，填「無」亦可
	在此瀏覽器上保存我的信息