cod*_*ing 7 java encoding character-encoding polish
我正在读一个包含德语,法语,西班牙语,英语和波兰文的xml文件.
为了处理抛光字母(这导致最麻烦)我试图这样做:
File file = new File(path);
InputStream is = new FileInputStream(file);
Reader reader = new InputStreamReader(is, charset);
InputSource src = new InputSource(reader);
src.setEncoding(charset.name());
SAXParserFactory factory = SAXParserFactory.newInstance();
SAXParser saxParser = factory.newSAXParser();
saxParser.parse(src, handler);
Run Code Online (Sandbox Code Playgroud)
我遇到的问题是没有任何默认的字符集正确显示文本.有些人在其中有一些问号,其中有一些其他字符组合,例如Ä..
为了打破它,我写了另一个片段来测试哪个charset工作:
public static void main(String[] args){
Charset charset = StandardCharsets.UTF_8;
String chars = "??una d?ugie";
System.out.println(new String(chars.getBytes(charset), charset));
}
Run Code Online (Sandbox Code Playgroud)
再次测试每一个,但没有任何作用..我希望你有一个想法.
我的解决方案:更改你的ide的编码
我使用了 ide (intellij) 的默认编码“windows-1252”,因为我在这台电脑上使用的是 windows。
所以我将其更改为 UTF-8,简短的测试代码对我来说效果很好。