为什么我们使用Base64？

Question

为什么我们使用Base64？

Laz*_*zer 246 algorithm binary base64 ascii character-encoding

当需要编码需要通过设计用于处理文本数据的媒体存储和传输的二进制数据时,通常使用Base64编码方案.这是为了确保数据在运输过程中保持完好无需修改.

但是,数据是否总是以二进制形式存储/传输,因为我们的机器存储二进制文件的内存只取决于你如何解释它？因此,无论您编码位模式010011010110000101101110为ManASCII或如TWFu为Base64,你最终将存储相同的位模式.

如果最终编码是零和1,并且每台机器和媒体都可以处理它们,那么如果数据表示为ASCII或Base64,这又如何重要？

什么是"旨在处理文本数据的媒体"？他们可以处理二元=>他们可以处理任何事情.

谢谢大家,我想我现在明白了.

当我们发送数据时,我们无法确定数据的解释格式是否与我们预期的相同.因此,我们发送以双方都理解的某种格式(如Base64)编码的数据.这样,即使发送方和接收方以不同方式解释相同的内容,但由于它们对编码格式达成一致,因此数据不会被错误地解释.

来自Mark Byers的例子

如果我想发送

Hello
world!

Run Code Online (Sandbox Code Playgroud)

一种方法是用ASCII发送它

72 101 108 108 111 10 119 111 114 108 100 33

Run Code Online (Sandbox Code Playgroud)

但是字节10可能无法正确解释为另一端的换行符.因此,我们使用ASCII的子集对此进行编码

83 71 86 115 98 71 56 115 67 110 100 118 99 109 120 107 73 61 61

Run Code Online (Sandbox Code Playgroud)

以相同数量的信息传输的更多数据为代价,确保接收器能够以预期的方式解码数据,即使接收器恰好对字符集的其余部分有不同的解释.

Answer 1

Mar*_*ers 261

你的第一个错误是认为ASCII编码和Base64编码是可以互换的.他们不是.它们用于不同的目的.

以ASCII格式编码文本时,首先要使用文本字符串并将其转换为字节序列.
在Base64中编码数据时,从一系列字节开始并将其转换为文本字符串.

要理解为什么Base64首先是必要的,我们需要一点点计算历史.

计算机以二进制 - 0和1进行通信 - 但人们通常希望与更丰富的表单数据(如文本或图像)进行通信.为了在计算机之间传输这些数据,首先必须将其编码为0和1,然后再发送,然后再解码.以文本为例 - 有许多不同的方法来执行此编码.如果我们都能就单一编码达成一致就会简单得多,但遗憾的是情况并非如此.

最初创建了许多不同的编码(例如Baudot代码),每个字符使用不同的位数,直到最终ASCII成为每个字符7位的标准.但是,大多数计算机以字节为单位存储二进制数据,每个字节由8位组成,因此ASCII不适合传输此类数据.有些系统甚至会擦掉最重要的位.此外,跨系统的行结束编码的差异意味着ASCII字符10和13有时也被修改.

为了解决这些问题,引入了Base64编码.这允许您将aribtrary字节编码为已知可安全发送而不会损坏的字节(ASCII字母数字字符和几个符号).缺点是使用Base64对消息进行编码会增加其长度 - 每3个字节的数据被编码为4个ASCII字符.

发送文本可靠,你可以先编码为使用您所选择的文本编码(例如UTF-8)字节,然后之后的Base64编码生成的二进制数据转换为文本字符串,它是安全发送编码为ASCII.接收方必须撤消此过程以恢复原始消息.这当然要求接收方知道使用了哪些编码,并且这些信息通常需要单独发送.

从历史上看,它已用于编码电子邮件中的二进制数据,其中电子邮件服务器可能会修改行结尾.一个更现代的例子是使用Base64编码将图像数据直接嵌入HTML源代码中.这里有必要对数据进行编码,以避免将"<"和">"等字符解释为标记.

这是一个有效的例子:

我希望发送一条包含两行的短信

Hello
world!

如果我以ASCII(或UTF-8)发送它,它将如下所示:

72 101 108 108 111 10 119 111 114 108 100 33

Run Code Online (Sandbox Code Playgroud)

字节10在某些系统中已损坏,因此我们可以将这些字节作为Base64字符串进行64位编码:

SGVsbG8sCndvcmxkIQ==

使用ASCII编码时,如下所示:

83 71 86 115 98 71 56 115 67 110 100 118 99 109 120 107 73 61 61

Run Code Online (Sandbox Code Playgroud)

这里的所有字节都是已知的安全字节,因此任何系统都很可能会破坏此消息.我可以发送此消息而不是原始消息,让接收方反转该过程以恢复原始消息.

@Lazer:没有.看看你自己的例子 - "man"是base-64编码为"TWFu".3个字节 - > 4个字节.这是因为允许输入是2 ^ 8 = 256个可能字节中的任何一个,而输出仅使用2 ^ 6 = 64个(和=,以帮助指示数据的长度).每四倍输出8位被"浪费",以防止输出包含任何"令人兴奋"的字符,即使输入有. (4认同)
"大多数现代通信协议都不会破坏数据" - 尽管例如电子邮件可能会在邮件将邮件保存到邮箱时将邮件字符串"\nFrom"替换为"\n> From".或者HTTP标头是换行符,没有可逆的方法来转义数据中的换行符(行继续混合空格),所以你不能只将任意ASCII转储到它们中.base64优于**7位安全,它是字母数字和 - = + /安全. (3认同)
将“在 Base64 中编码数据时，从字节序列开始并将其转换为文本字符串”重新表述为“在 Base64 中编码数据时，从字节序列开始并将其转换为文本字符串”可能会有所帮助仅由 ASCII 值组成的字节序列”。仅由 ASCII 字符组成的字节序列是 SMTP 所要求的，这就是 Base64（和带引号的可打印）用作内容传输编码的原因。很棒的概述！ (3认同)
“缺点是使用 Base64 编码消息会增加其长度——每 3 个字节的数据被编码为 4 个字节。” 它如何增加到4个字节？它不会仍然是 3*8 = 24 位吗？ (2认同)
“字节 10 在某些系统中已损坏” - 嘿@Mark Byers 我可以问你怎么知道这一点吗？我的意思是这背后一定有一些证据，对吧？ (2认同)
我发现一个反向引用的帖子谈论这个“如果我们不这样做，那么某些字符可能会被错误解释。例如，换行符，如 0x0A 和 0x0D，控制字符，如 ^C、^D，和 ^Z 在某些平台上被解释为文件结尾，NULL 字节作为文本字符串的结尾，字节高于 0x7F（非 ASCII），我们在 HTML/XML 文档中使用 Base64 编码来避免像 '< ' 和 '>' 被解释为标签。” (2认同)

Answer 2

yfe*_*lum 57

用XML编码二进制数据

假设您要在XML文档中嵌入一些图像.图像是二进制数据,而XML文档是文本.但XML无法处理嵌入式二进制数据.你是怎么做到的？

一种选择是在base64中对图像进行编码,将二进制数据转换为XML可以处理的文本.

代替:

<images>
  <image name="Sally">{binary gibberish that breaks XML parsers}</image>
  <image name="Bobby">{binary gibberish that breaks XML parsers}</image>
</images>

Run Code Online (Sandbox Code Playgroud)

你做:

<images>
  <image name="Sally" encoding="base64">j23894uaiAJSD3234kljasjkSD...</image>
  <image name="Bobby" encoding="base64">Ja3k23JKasil3452AsdfjlksKsasKD...</image>
</images>

Run Code Online (Sandbox Code Playgroud)

XML解析器将能够正确解析XML文档并提取图像数据.

最好的答案在这里。 (2认同)

Answer 3

Bil*_*eal 37

为什么不查看当前定义Base64的RFC？

在许多情况下,数据的基本编码用于在环境中存储或传输
数据,这些环境可能由于遗留原因而限制为US-ASCII [1]数据.Base编码也可用于没有传统限制的新应用程序,只是因为它可以用文本编辑器操作对象.

过去,不同的应用程序有不同的要求,因此有时以稍微不同的方式实现基本编码.今天,协议规范有时一般使用基本编码,特别是"base64",没有精确的描述或参考.多用途Internet邮件扩展(MIME)[4]通常用作base64的参考,而不考虑换行或非字母字符的后果.本规范的目的是建立常见的字母和编码注意事项.这有望减少其他文档中的歧义,从而实现更好的互操作性.

Base64最初被设计为允许二进制数据作为多用途Internet邮件扩展的一部分附加到电子邮件的方法.

Answer 4

Gil*_*oot 28

以下是我阅读其他人的帖子后的理解总结：

\n

重要的！

\n