是否可以将包含"高"unicode字符的字符串转换为由utf-32("实际")代码派生的dec值组成的数组？

Question

是否可以将包含"高"unicode字符的字符串转换为由utf-32("实际")代码派生的dec值组成的数组？

lyr*_*ked 4 html javascript utf-8 character-encoding utf-32

请查看在(理论上可能的)字符串上运行的脚本:

<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title></title>
<script src="jquery.js"></script>
<script>
    $(function () {
        $("#click").click(function () {
            var txt = $('#high-unicode').text();
            var codes = '';
            for (var i = 0; i < txt.length; i++) {
                if (i > 0) codes += ',';
                codes += txt.charCodeAt(i);
            }
            alert(codes);
        });
    });
</script>
</head>
<body>
<span id="click">click</span><br />
<span id="high-unicode">&#x1D465;<!-- mathematical italic small x -->&#xF31E0;<!-- some char from Supplementary Private Use Area-A -->A<!-- char A -->&#x108171;<!-- some char from Supplementary Private Use Area-B --></span>
</body>
</html>

Run Code Online (Sandbox Code Playgroud)

而不是"55349,56421,56204,56800,65,56288,56689",是否有可能获得"119909,995808,65,1081713"？我已经阅读了更多-utf-32-aware-javascript-string和Q:从UTF-16转换为字符代码的算法是什么？+ 问:有没有更简单的方法来做到这一点？来自unicode.org/faq/utf_bom,但我不确定如何使用此信息.

Answer 1

geo*_*org 6

看起来您必须手动解码代理对.例如:

function decodeUnicode(str) {
    var r = [], i = 0;
    while(i < str.length) {
        var chr = str.charCodeAt(i++);
        if(chr >= 0xD800 && chr <= 0xDBFF) {
            // surrogate pair
            var low = str.charCodeAt(i++);
            r.push(0x10000 + ((chr - 0xD800) << 10) | (low - 0xDC00));
        } else {
            // ordinary character
            r.push(chr);
        }
    }
    return r;
}

Run Code Online (Sandbox Code Playgroud)

完整代码:http://jsfiddle.net/twQWU/

归档时间：	12 年，12 月前
查看次数：	1442 次
最近记录：	12 年，12 月前