我如何检查 base64 字符串是否是文件(什么类型?)?

Huy*_*ang 3 base64 decode base32 ctf

我在https://2020.ractf.co.uk/上接受了 Spentalkux 挑战。这是我第一次进行 CTF 挑战,所以我在https://github.com/W3rni0/RACTF_2020/blob/master/readme.md#spentalkux上找到了解决方案

当我收到这个 base64 字符串时:

JA2HGSKBJI4DSZ2WGRAS6KZRLJKVEYKFJFAWSOCTNNTFCKZRF5HTGZRXJV2EKQTGJVTXUOLSIMXWI2KYNVEUCNLIKN5HK3RTJBHGIQTCM5RHIVSQGJ3C6MRLJRXXOTJYGM3XORSIJN4FUYTNIU4XAULGONGE6YLJJRAUYODLOZEWWNCNIJWWCMJXOVTEQULCJFFEGWDPK5HFUWSLI5IFOQRVKFWGU5SYJF2VQT3NNUYFGZ2MNF4EU5ZYJBJEGOCUMJWXUN3YGVSUS43QPFYGCWSIKNLWE2RYMNAWQZDKNRUTEV2VNNJDC43WGJSFU3LXLBUFU3CENZEWGQ3MGBDXS4SGLA3GMS3LIJCUEVCCONYSWOLVLEZEKY3VM4ZFEZRQPB2GCSTMJZSFSSTVPBVFAOLLMNSDCTCPK4XWMUKYORRDC43EGNTFGVCHLBDFI6BTKVVGMR2GPA3HKSSHNJSUSQKBIE
Run Code Online (Sandbox Code Playgroud)

我不知道如何检查它是否是一个文件,但解算器说它是一个 gz 压缩数据文件。

你能帮我吗? 详细信息在这里

文件链接:https://github.com/W3rni0/RACTF_2020/blob/master/assets/files/Spentalkux.gz

jps*_*jps 7

许多文件类型都有一个标头(文件的前几个字节),其中包含一些固定信息,通过这些信息可以将文件识别为 gz、png、pdf 等。

因此,每个 Base64 编码的 gz 文件也将以特定的 Base64 字符序列开头,通过该序列可以识别该文件。

gzip 文件始终以两个字节序列 0x1f 0x1b 开头,在 Base64 编码中加上toH4范围内的第三个字符。sv

原因是,每个 Base64 字符代表原始字节的 6 位,因此这两个字节0x1f 0x1b是用两个 Base64 字符(12 位)加上第三个字符的前 4 位进行编码的。

基于此,我想说您在那里显示的不是 base64 编码的 gzip。

其他例子有:

  • PNG

    以。。开始:0x89 0x50 0x4e 0x47 0x0d 0x0a 0x1a 0x0a

    Base64 编码:iVBORw0KGg...

  • .jpg

    以。。开始:0xFF 0xD8 0xFF 0xD0

    Base64 编码:/9j/4...

  • 动图

    以。。开始:GIF

    Base64 编码:R0lG

  • tif

    a) 小尾数:开始于:0x49 0x49 0x2A 0x00

    Base64 编码:SUkqA

    b) 大尾数:开始于:0x4D 0x4D 0x00 0x2A

    Base64 编码:TU0AK

  • 电影

    以。。开始FLV

    Base64 编码:RkxW

  • wav/avi/webp 等

    多种音频/视频/图像/图形格式均基于RIFF(资源交换格式), 共同点是所有文件都以RIFF

    Base64 编码:UklGR

    在标头之后RIFF,您会发现从第 9 个字节开始的 4 个字节开始的特定格式。在下面_用作任何字符的占位符。

    wav
    开头:RIFF____WAVE base64 编码:UklGR______XQVZF

    webp
    开头为:RIFF____WEBP base64 编码:UklGR______XRUJQ

    avi
    开头为:RIFF____AVI base64 编码:UklGR______BVkkg


关于问题中的具体例子:

在更新的问题中,附图中有一个提示

数据首先进行 Base32 编码,然后进行 Base64 编码。

当我们向在线 Base32 解码器提供问题 ( ) 中给出的字符串时JA2HGSKBJI4DSZ2WGRAS...,我们得到:

H4sIAJ89gV4A/+1ZURaEIAi8SkfQ+1/O3f7MtEBfMgz9rC/diXmIA5hSzun3HNdBbgbtVP2v/2+LowM837wFHKxZbmE9pQfsLOaiLAL8kvIk4MBma17ufHQbIJCXoWNZZKGPWB5QljvXIuXOmm0SgLixJw8HRC8Tbmz7x5eIspypaZHSWbj8cAhdjli2WUkR1sv2dZmwXhZlDnIcCl0GyrFX6fKkBEBTBsq+9uY2Ecug2Rf0xtaJlNdYJuxjP9kcd1LOW/fQXtb1sd3fSTGXFTx3UjfGFx6uJGjeIAAA
Run Code Online (Sandbox Code Playgroud)

它以 开头H4s,所以根据我写的有关如何识别 Base64 编码中的文件类型的内容,它是一个 Base64 编码的 gzip 文件。

可以将其保存在文本文件中,然后上传到base64decode.org,并将其转换为 gzip 文件。当您下载并打开该 gzip 文件时,它包含一个文本如下的文件:

00110000 00110000 00110001 00110001 00110000 00110001 00110000 00110000 00100000 00110000 00110000 00110001 00110001 00110000 00110001 00110000 00110001 00100000 ...
Run Code Online (Sandbox Code Playgroud)

此案例的结论:原始字符串/文件是一个 gzip 文件,首先进行 Base64 编码,然后将 Base64 编码部分再次使用 Base32 进行编码。