5月28日 06:33

ASCII、UTF-8 和 UTF-16 有什么区别？编码原理与选择策略

ASCII、UTF-8 和 UTF-16 是字符编码领域最常见的三种方案，面试中几乎必考。理解它们的核心区别，关键在于搞清楚字符集与编码的关系、变长编码的原理，以及各自的适用场景。

Unicode、字符集与编码的关系

很多人混淆 Unicode 和 UTF，这是面试第一个坑。Unicode 是字符集，它给世界上每个字符分配一个唯一的编号（码点，Code Point），比如中的码点是 U+4E2D。但 Unicode 只定义了编号，没有规定这些编号怎么存到字节里——这就是编码方案的事。UTF-8、UTF-16、UTF-32 都是 Unicode 的编码实现方式。

ASCII 则不同，它既是字符集也是编码方案，两者合一。ASCII 定义了 128 个字符，同时规定了每个字符用 7 位二进制表示，第 8 位恒为 0。

三种编码的核心原理

ASCII：固定单字节

ASCII 使用 7 位编码，实际存储占 1 字节（最高位为 0）。它覆盖英文大小写字母、数字、标点符号和控制字符，共 128 个。由于结构极简，处理速度快，兼容性最好，但只能表示英文世界的字符。

UTF-8：变长编码，向下兼容 ASCII

UTF-8 是最广泛使用的 Unicode 编码，核心特点是变长——根据码点范围用 1 到 4 个字节编码：

U+0000 ~ U+007F（ASCII 范围）：1 字节，编码与 ASCII 完全一致
U+0080 ~ U+07FF：2 字节，首字节以 110 开头
U+0800 ~ U+FFFF（含中文）：3 字节，首字节以 1110 开头
U+10000 ~ U+10FFFF：4 字节，首字节以 11110 开头

后续字节统一以 10 开头，这种前缀设计让解码器能从任意字节判断它是首字节还是续字节，具备自同步能力。

正因为 ASCII 字符在 UTF-8 中编码完全相同，任何合法的 ASCII 文件同时也是合法的 UTF-8 文件，这是 UTF-8 能够取代其他编码成为互联网标准的关键原因。

UTF-16：定长与变长的折中

UTF-16 对基本多文种平面（BMP，U+0000 ~ U+FFFF）的字符使用 2 字节编码，对辅助平面的字符使用 4 字节（代理对，Surrogate Pair）。代理对的机制是：用 U+D800 ~ U+DBFF 的前导代理和 U+DC00 ~ U+DFFF 的尾随代理组合表示辅助平面字符。

UTF-16 处理中英日韩等常用字符效率较高（每个字符固定 2 字节），但存在字节序问题——同样两个字节，大端序和小端序解读结果不同，因此 UTF-16 文件通常以 BOM（Byte Order Mark，U+FEFF）开头来标识字节序。

三者核心对比

维度	ASCII	UTF-8	UTF-16
编码长度	固定 1 字节	变长 1-4 字节	变长 2 或 4 字节
字符范围	128 个字符	全部 Unicode（超 14 万字符）	全部 Unicode
ASCII 兼容	本身	完全兼容	不兼容
中文存储	不支持	3 字节/字符	2 字节/字符
英文存储	1 字节	1 字节	2 字节/字符
字节序问题	无	无	有（需 BOM）
自同步能力	无需	有（前缀设计）	有（代理对机制）

实际选择建议

Web 应用和互联网场景：无脑选 UTF-8。HTML5 默认编码就是 UTF-8，超过 98% 的网页使用 UTF-8。
Windows 系统内部 API：使用 UTF-16，Windows NT 内核原生支持 UTF-16，宽字符 API（以 W 结尾的函数）都用 UTF-16。
Java/C# 内部表示：字符串内部用 UTF-16 存储（Java 9+ 对 Latin-1 字符串做了优化，使用 Compact Strings）。
纯英文协议或配置：ASCII 足矣，如 HTTP 头部字段、SMTP 协议等。

面试中一个常见的追问是：为什么 UTF-8 成为互联网主流而不是 UTF-16？核心原因有三：与 ASCII 完全兼容降低了迁移成本；英文内容只需 1 字节节省带宽；没有字节序问题简化了跨平台处理。

面试高频追问

Q：UTF-8 的字节前缀有什么用？ 前缀设计实现了自同步——解码器可以从数据流中任意位置开始，最多回溯 3 个字节就能找到字符边界。这意味着即使某个字节损坏，只影响当前字符，不会像某些编码那样错误传播。

Q：为什么中文在 UTF-8 中占 3 字节而不是 2 字节？ 中文字符的码点落在 U+0800 ~ U+FFFF 范围，UTF-8 对这个范围统一使用 3 字节编码。而 UTF-16 对 BMP 内的字符统一用 2 字节，所以纯中文场景 UTF-16 反而更省空间。

Q：BOM 是什么？UTF-8 需要 BOM 吗？ BOM（Byte Order Mark）是文件开头的字节序标识，UTF-16 用它区分大端序和小端序。UTF-8 是字节流编码，不存在字节序问题，通常不需要 BOM。但 Windows 记事本会在 UTF-8 文件开头添加 BOM（EF BB BF），这有时会导致 Linux 环境下的兼容问题。

标签：ASCII