Java 8改变了UTF-8解码

Jir*_*iya 8 java regression utf-8 java-8

我们最近将我们的应用程序从JDK 7迁移到了JDK 8.在更改之后,我们遇到了以下代码片段的问题.

String output = new String(byteArray, "UTF-8");
Run Code Online (Sandbox Code Playgroud)

字节数组可能包含无效的UTF-8字节序列.在UTF-8解码时,相同的字节数组在Java 7和Java 8上产生两个不同的字符串.

根据这篇SO帖子答案,Java 8"修复"了Java 7中的一个错误,并用一个替换字符串替换了无效的UTF-8字节序列,这符合UTF-8规范.

但我们希望坚持使用Java 7的解码字符串版本.

我们尝试在Java 8上使用带有CodingErrorAction的CharsetDecoder作为REPLACE,REPORT和IGNORE.但是,我们无法生成与Java 7相同的字符串.

我们能用合理复杂的技术做到这一点吗?

Jir*_*iya 7

从@Holger提供的指针来看,显然我们必须编写一个自定义的CharsetDecoder.

我复制了OpenJDK版本的sun.nio.cs.UTF_8类,将其重命名为CustomUTF_8并用它来构造一个像这样的字符串

String output = new String(bytes, new CustomUTF_8());
Run Code Online (Sandbox Code Playgroud)

我计划运行大量测试,交叉验证在Java 7和Java 8上生成的输出.这是一个临时解决方案,而我正在尝试修复将输出从hmac直接传递给String而不用Base64编码的实际问题.

 String output = new String(Base64.Encoder.encode(bytes), Charset.forname("UTF-8"));
Run Code Online (Sandbox Code Playgroud)