Grz*_*zki 3 java encoding ascii utf-8 non-ascii-characters
请考虑以下代码:
public class ReadingTest {
public void readAndPrint(String usingEncoding) throws Exception {
ByteArrayInputStream bais = new ByteArrayInputStream(new byte[]{(byte) 0xC2, (byte) 0xB5}); // 'micro' sign UTF-8 representation
InputStreamReader isr = new InputStreamReader(bais, usingEncoding);
char[] cbuf = new char[2];
isr.read(cbuf);
System.out.println(cbuf[0]+" "+(int) cbuf[0]);
}
public static void main(String[] argv) throws Exception {
ReadingTest w = new ReadingTest();
w.readAndPrint("UTF-8");
w.readAndPrint("US-ASCII");
}
}
Run Code Online (Sandbox Code Playgroud)
观察到的输出:
µ 181
? 65533
Run Code Online (Sandbox Code Playgroud)
为什么第二次调用readAndPrint()(使用US-ASCII的那个)成功?我希望它会抛出一个错误,因为输入不是这个编码中的正确字符.Java API或JLS中强制执行此行为的位置是什么?
在输入流中查找不可解码字节时的默认操作是用Unicode字符U + FFFD REPLACEMENT CHARACTER替换它们.
如果要更改它,可以将a传递给具有不同配置的:CharacterDecoder InputStreamReaderCodingErrorAction
CharsetDecoder decoder = Charset.forName(usingEncoding).newDecoder();
decoder.onMalformedInput(CodingErrorAction.REPORT);
InputStreamReader isr = new InputStreamReader(bais, decoder);
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2085 次 |
| 最近记录: |