如何在Java中将UTF-8表示解析为String?

Ste*_*han 8 java ascii utf-8

给出以下代码:

String tmp = new String("\\u0068\\u0065\\u006c\\u006c\\u006f\\u000a");

String result = convertToEffectiveString(tmp); // result contain now "hello\n"
Run Code Online (Sandbox Code Playgroud)

JDK是否已经为此提供了一些类?有没有这样做的图书?(最好在maven下)

我尝试使用ByteArrayOutputStream但没有成功.

jmq*_*jmq 3

这有效,但仅适用于 ASCII。如果您使用 ASCCI 范围之外的 unicode 字符,则会遇到问题(因为每个字符都被填充到一个字节中,而不是 UTF-8 允许的完整单词中)。您可以执行下面的类型转换,因为您知道如果您保证输入基本上是 ASCII(正如您在评论中提到的),则 UTF-8 不会溢出一个字节。

package sample;

import java.io.UnsupportedEncodingException;

public class UnicodeSample {
    public static final int HEXADECIMAL = 16;

    public static void main(String[] args) {

        try {
            String str = "\\u0068\\u0065\\u006c\\u006c\\u006f\\u000a";

            String arr[] = str.replaceAll("\\\\u"," ").trim().split(" ");
            byte[] utf8 = new byte[arr.length];

            int index=0;
            for (String ch : arr) {
                utf8[index++] = (byte)Integer.parseInt(ch,HEXADECIMAL);
            }

            String newStr = new String(utf8, "UTF-8");
            System.out.println(newStr);

        }
        catch (UnsupportedEncodingException e) {
            // handle the UTF-8 conversion exception
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

这是另一个解决方案,解决了仅使用 ASCII 字符的问题。这将适用于 UTF-8 范围内的任何 unicode 字符,而不是仅适用于该范围的前 8 位的 ASCII。感谢 deceze 的提问。你让我更多地思考问题和解决方案。

package sample;

import java.io.UnsupportedEncodingException;
import java.util.ArrayList;

public class UnicodeSample {
    public static final int HEXADECIMAL = 16;

    public static void main(String[] args) {

        try {
            String str = "\\u0068\\u0065\\u006c\\u006c\\u006f\\u000a\\u3fff\\uf34c";

            ArrayList<Byte> arrList = new ArrayList<Byte>();
            String codes[] = str.replaceAll("\\\\u"," ").trim().split(" ");

            for (String c : codes) {

                int code = Integer.parseInt(c,HEXADECIMAL);
                byte[] bytes = intToByteArray(code);

                for (byte b : bytes) {
                    if (b != 0) arrList.add(b);
                }
            }

            byte[] utf8 = new byte[arrList.size()];
            for (int i=0; i<arrList.size(); i++) utf8[i] = arrList.get(i);

            str = new String(utf8, "UTF-8");
            System.out.println(str);
        }
        catch (UnsupportedEncodingException e) {
            // handle the exception when
        }
    }

    // Takes a 4 byte integer and and extracts each byte
    public static final byte[] intToByteArray(int value) {
        return new byte[] {
                (byte) (value >>> 24),
                (byte) (value >>> 16),
                (byte) (value >>> 8),
                (byte) (value)
        };
    }
}
Run Code Online (Sandbox Code Playgroud)