如果输入长度不能被3整除,为什么base64编码需要填充?

Ana*_*tel 76 base64 encoding

在base64编码中填充的目的是什么.以下是维基百科的摘录:

"分配了一个额外的填充字符,可用于强制编码输出为4个字符的整数倍(或等效于未编码的二进制文本不是3个字节的倍数);这些填充字符必须在解码时丢弃,但仍然允许计算未编码文本的有效长度,当其输入二进制长度不是3个字节的倍数时(最后一个非填充字符通常被编码,使得它代表的最后一个6位块将为零在其最低有效位上填充,在编码流的末尾最多可能出现两个填充字符."

我写了一个程序,它可以base64编码任何字符串并解码任何base64编码的字符串.填充解决了什么问题?

TJM*_*TJM 167

你不需要填充的结论是正确的.始终可以根据编码序列的长度明确地确定输入的长度.

但是,填充在base64编码的字符串以这样的方式连接的情况下是有用的,即单个序列的长度丢失,例如,在非常简单的网络协议中可能发生.

如果连接未填充的字符串,则无法恢复原始数据,因为有关每个单独序列末尾的奇数字节数的信息将丢失.但是,如果使用填充序列,则不存在歧义,并且可以正确解码整个序列.

编辑:插图

假设我们有一个base64编码单词的程序,连接它们并通过网络发送它们.它编码"I","AM"和"TJM",将结果夹在一起而不填充并传输它们.

  • I编码为SQ(SQ==带填充)
  • AM编码为QU0(QU0=带填充)
  • TJM编码为VEpN(VEpN带填充)

所以传输的数据是SQQU0VEpN.接收器base64将其解码为I\x04\x14\xd1Q)而不是预期的IAMTJM.结果是无意义的,因为发送者已经破坏了关于每个单词在编码序列中的结束位置的信息.如果发送方已发送SQ==QU0=VEpN,则接收方可以将其解码为三个单独的base64序列,这些序列将连接以给出IAMTJM.

为什么要用Padding打扰?

为什么不设计协议为每个单词添加整数长度?然后接收器可以正确解码流,不需要填充.

这是一个好主意,只要我们在开始编码之前知道我们编码的数据的长度.但是,如果我们从现场摄像机编码视频块而不是文字呢?我们可能事先不知道每个块的长度.

如果协议使用填充,则根本不需要传输长度.数据可以在从摄像机进入时进行编码,每个块都用填充终止,接收器能够正确解码流.

显然这是一个非常人为的例子,但也许它说明了为什么填充在某些情况下可能会有所帮助.

  • +1唯一的答案实际上提供了一个合理的答案,"因为我们喜欢冗长和冗余的某些莫名其妙的原因". (20认同)
  • 这个答案可能会让您认为只需将“SQ==QU0=VEpN”之类的内容交给解码器即可对其进行解码。实际上似乎你不能,例如 javascript 和 php 中的实现不支持这一点。从连接字符串开始,您要么必须一次解码 4 个字节,要么在填充字符后分割字符串。看起来这些实现只是忽略填充字符,即使它们位于字符串中间。 (7认同)
  • 如果单词的长度是 3 的倍数怎么办?这种愚蠢的连接方式会破坏信息(单词的结尾),而不是去除填充。 (4认同)
  • Base64 连接允许编码器并行处理大块,而无需将块大小调整为 3 的倍数。类似地,作为一个实现细节,可能有一个编码器需要刷新一个大小不是三的倍数的内部数据缓冲区。 (3认同)
  • 这适用于明显编码的块,但预计在解码后不可分割地连接。如果您发送 U0FNSQ==QU0=,您可以重建句子,但会丢失组成句子的单词。我想总比没有好。值得注意的是,GNU base64 程序会自动处理连接编码。 (2认同)
  • @GreenScape 我并不是在上面暗示填充保留了单个单词的长度 - 它不会,因为正如您所指出的,如果单词的长度是 3 的倍数,则不需要填充。相反,对于长度不是 3 倍数的单词,填充可以防止单词末尾的 1 或 2 个悬空字节的编码与下一个单词的编码混合,因此整个序列可以按预期解码。 (2认同)

Zam*_*col 32

什么是填充字符?

填充字符有助于满足长度要求并且没有任何意义.

填充的十进制示例: 给定任意要求所有字符串的长度为8个字符,数字640可以使用前面的0作为填充字符来满足此要求,因为它们没有任何含义,"00000640".

二进制编码

字节范例:字节是事实上的标准测量单位,任何编码方案必须与字节有关.

Base256完全符合这个范例.一个字节等于base256中的一个字符.

Base16,十六进制或十六进制,每个字符使用4位.一个字节可以表示两个base16字符.

与base256和base16不同,Base64不能均匀地适合字节范例.所有base64字符都可以用6位表示,比完整字节短2位.

我们可以将base64编码与字节范例表示为一个分数:每字符6比特,每字节8比特.减少此分数是超过4个字符的3个字节.

这个比率,每4个base64个字符3个字节,是我们在编码base64时要遵循的规则. Base64编码只能承诺使用3字节包进行测量,这 与base16和base256不同,其中每个字节都可以独立存在.

那么为什么鼓励填充即使编码可以在没有填充字符的情况下正常工作呢?填充字符明确地表明这些额外的点应该是空的,并排除任何歧义或可能令人讨厌的错误.填充允许我们解码base64编码,承诺没有丢失的比特.如果没有填充,则不再明确承认三字节包中的测量,并且我们无法再保证在没有附加信息的情况下精确再现原始编码.

例子

以下是RFC 4648的示例表单(http://tools.ietf.org/html/rfc4648#section-8)

"BASE64"函数中的每个字符使用一个字节(base256).然后我们将其转换为base64.

BASE64("")       = ""           (No bytes used. 0%3=0.)
BASE64("f")      = "Zg=="       (One byte used. 1%3=1.)
BASE64("fo")     = "Zm8="       (Two bytes. 2%3=2.)
BASE64("foo")    = "Zm9v"       (Three bytes. 3%3=0.)
BASE64("foob")   = "Zm9vYg=="   (Four bytes. 4%3=1.)
BASE64("fooba")  = "Zm9vYmE="   (Five bytes. 5%3=2.)
BASE64("foobar") = "Zm9vYmFy"   (Six bytes. 6%3=0.)
Run Code Online (Sandbox Code Playgroud)

这是一个可以使用的编码器:http://www.motobit.com/util/base64-decoder-encoder.asp

  • -1这是关于数字系统如何工作的一个很好而且彻底的帖子,但它没有解释*为什么在编码完全没有的情况下使用填充. (16认同)
  • @Navin如果你正在解码base64字节,你不知道长度,3字节填充,你知道每次有3个字节你可以处理4个字符,直到你到达流的末尾.没有它,您可能需要回溯,因为下一个字节可能会导致前一个字符发生变化,因此只有在您到达流末尾时才能确保正确解码它.所以,它不是很有用,但它有一些你可能想要的边缘情况. (4认同)
  • 我认为这个答案实际上解释了这里所说的原因:"我们不能保证在没有附加信息的情况下完全复制原始编码".这很简单,填充让我们知道我们收到了完整的编码.每次你有3个字节,你可以放心地认为可以继续解码它,你不用担心,哼......可能还有一个字节可能会改变编码. (3认同)
  • 你有没看过这个问题?你不需要*填充正确解码. (2认同)

Rom*_*kov 13

在现代,它没有多大好处。因此,让我们将此视为最初的历史目的可能是什么的问题。

Base64 编码首次出现在1993 年的RFC 1421中。该 RFC 实际上专注于加密电子邮件,并且 Base64 在一小节 4.3.2.4中进行了描述。

该 RFC 没有解释填充的目的。最接近我们最初目的的是这句话:

完整的编码量始终在消息末尾完成。

它不建议串联(此处的最佳答案),也不建议将易于实现作为填充的明确目的。然而,考虑到整个描述,假设这可能是为了帮助解码器以 32 位单元(“量子”)读取输入,这并不是没有道理的。这在今天没有任何好处,但在 1993 年,不安全的 C 代码很可能实际上利用了这个特性。

  • `b'Zm9vYmFyZm9vYg==' b'Zm9vYmFyZm9vYmE=' b'Zm9vYmFyZm9vYmFy' b'Zm9vYmFyZm9vYmFyZg==' b'Zm9vYmFyZm9vYmFyZm8=' b'Zm9vYmFyZm9vYmFy 的平均长度zm9v'` 与 `b'Zm9vYmFyZm9vYg='b' 相同Zm9vYmFyZm9vYmE='b'Zm9vYmFyZm9vYmFy='b'Zm9vYmFyZm9vYmFyZg='b'Zm9vYmFyZm9vYmFyZm8='b'Zm9vYmFyZm9vYmFyZm9v='` (5认同)
  • 在没有填充的情况下,当第一个字符串的长度不是三的倍数时尝试连接两个字符串通常会产生看似有效的字符串,但第二个字符串的内容将无法正确解码。添加填充可确保不会发生这种情况。 (2认同)
  • @supercat如果这是目标,那么用一个“=”结束每个base64字符串不是更容易吗?平均长度会更短,并且仍然可以防止错误的连接。 (2认同)

Mec*_*cki 6

通过填充,base64 字符串的长度始终是 4 的倍数(如果不是,则字符串肯定已损坏),因此代码可以轻松地在一次处理 4 个字符的循环中处理该字符串(始终将 4 个输入字符转换为 3 个或更少的输出字节)。因此,填充使完整性检查变得容易(length % 4 != 0==>填充不可能出现错误),并且它使处理更简单、更高效。

我知道人们会怎么想:即使没有填充,我也可以在循环中处理所有 4 字节块,然后只需为最后 1 到 3 个字节添加特殊处理(如果存在)。这只是几行额外的代码,速度差异很小,甚至无法测量。可能是这样,但您正在考虑 C(或更高语言)和具有充足 RAM 的强大 CPU。如果您需要使用简单的 DSP 在硬件中解码 Base64,该 DSP 的处理能力非常有限,没有 RAM 存储,并且您必须在非常有限的微汇编中编写代码,该怎么办?如果您根本无法使用代码并且所有事情都必须通过堆叠在一起的晶体管(硬连线硬件实现)来完成,该怎么办?使用填充比不使用要简单得多。