流解码Base64数据

Jam*_*aac 4 java base64 hadoop gzipinputstream

我有一些大的base64编码数据(存储在hadoop文件系统中的snappy文件中).这个数据最初是gzip压缩的文本数据.我需要能够读取这些编码数据的块,对其进行解码,然后将其刷新到GZIPOutputStream.

有关如何执行此操作而不是将整个base64数据加载到数组并调用Base64.decodeBase64(byte [])的任何想法?

如果我将字符读到'\ r \n'分隔符并逐行解码,我是对的吗?例如:

for (int i = 0; i < byteData.length; i++) {
    if (byteData[i] == CARRIAGE_RETURN || byteData[i] == NEWLINE) {
       if (i < byteData.length - 1 && byteData[i + 1] == NEWLINE)
            i += 2;
       else 
            i += 1;

       byteBuffer.put(Base64.decodeBase64(record));

       byteCounter = 0;
       record = new byte[8192];
    } else {
        record[byteCounter++] = byteData[i];
    }
}
Run Code Online (Sandbox Code Playgroud)

遗憾的是,这种方法并没有给出任何人类可读的输出.理想情况下,我想流式读取,解码和流出数据.

现在,我正在尝试输入一个输入流,然后复制到一个gzipout

byteBuffer.get(bufferBytes);

InputStream inputStream = new ByteArrayInputStream(bufferBytes);
inputStream = new GZIPInputStream(inputStream);
IOUtils.copy(inputStream , gzipOutputStream);
Run Code Online (Sandbox Code Playgroud)

它给了我一个java.io.IOException:Corrupt GZIP预告片

Nik*_*los 5

让我们一步一步走:

  1. 您需要a GZIPInputStream来读取压缩数据(而不是a GZIPOutputStream;输出流用于压缩数据).拥有此流后,您将能够读取未压缩的原始二进制数据.这需要InputStream在构造函数中.

  2. 您需要一个能够读取Base64编码数据的输入流.我建议得心应手Base64InputStreamApache的公地编解码器.使用构造函数,您可以设置行长度,行分隔符并设置doEncode=false为解码数据.这又需要另一个输入流 - 原始的Base64编码数据.

  3. 此流取决于您获取数据的方式; 理想情况下,数据应该可用InputStream- 问题已解决.如果没有,您可能必须使用ByteArrayInputStream(如果是二进制),StringBufferInputStream(如果是字符串)等.

大致这个逻辑是:

InputStream fromHadoop = ...;                                  // 3rd paragraph
Base64InputStream b64is =                                      // 2nd paragraph
    new Base64InputStream(fromHadoop, false, 80, "\n".getBytes("UTF-8"));
GZIPInputStream zis = new GZIPInputStream(b64is);              // 1st paragraph
Run Code Online (Sandbox Code Playgroud)

请注意Base64InputStream(行长度和行尾字节数组)的参数,您可能需要调整它们.