如何使用javascript将特殊的UTF-8字符转换为iso-8859-1等效字符？

Hob*_*use 52 javascript jquery character-encoding

我正在制作一个javascript应用程序,它.json使用jquery 检索文件并将数据注入其嵌入的网页中.

这些.json文件采用UTF-8编码,并包含重音字符,如é,ö和å.

问题是我不控制将要使用该应用程序的页面上的charset.

有些人将使用UTF-8,但其他人将使用iso-8859-1 charset.这当然会从.json文件中剔除特殊字符.

如何使用javascript将特殊的UTF-8字符转换为iso-8859-1等效字符？

实际上,一切都通常在内部存储为某种类型的Unicode,但不要进入那个.我假设您正在使用标志性的"Ã¥Ã"类型字符串,因为您使用的是ISO-8859作为字符编码.有一个技巧可以转换这些字符.的escape和unescape用于编码和解码的查询字符串功能针对ISO字符定义的,而较新的encodeURIComponent和decodeURIComponent其做同样的事情,针对UTF8字符定义.

escape将扩展的ISO-8859-1字符(UTF代码点U + 0080-U + 00ff)%xx编码为(两位十六进制),而它将UTF代码点U + 0100及以上编码为%uxxxx(%u后跟四位十六进制).例如,escape("å") == "%E5"和escape("?") == "%u3042".

encodeURIComponent百分比将扩展字符编码为UTF8字节序列.例如,encodeURIComponent("å") == "%C3%A5"和encodeURIComponent("?") == "%E3%81%82".

所以你可以这样做:

fixedstring = decodeURIComponent(escape(utfstring));

Run Code Online (Sandbox Code Playgroud)

例如,编码错误的字符"å"变为"Ã¥".该命令执行escape("Ã¥") == "%C3%A5"哪两个错误的ISO字符编码为单个字节.然后decodeURIComponent("%C3%A5") == "å",将两个百分比编码的字节解释为UTF8序列.

如果你出于某种原因需要反向做,那也是有效的:

utfstring = unescape(encodeURIComponent(originalstring));

Run Code Online (Sandbox Code Playgroud)

有没有办法区分坏的UTF8字符串和ISO字符串？原来有.如果给定格式错误的编码序列,上面使用的decodeURIComponent函数将抛出错误.我们可以用它来检测我们的字符串是UTF8还是ISO.

var fixedstring;

try{
    // If the string is UTF-8, this will work and not throw an error.
    fixedstring=decodeURIComponent(escape(badstring));
}catch(e){
    // If it isn't, an error will be thrown, and we can assume that we have an ISO string.
    fixedstring=badstring;
}

Run Code Online (Sandbox Code Playgroud)

@nitro2k01：您的建议出现错误：`未捕获的 URIError：URI 格式错误` (4认同)
`escape`编码扩展ISO-8859-1字符(UTF代码点U + 0080-U + 00FF)作为'%xx`(两位十六进制),而其编码UTF码点U + 0100和如上`%uxxxx`( `%u`接着4位十六进制).例如,`逃逸( "A")== "%E5"`和`逃逸( "あ")== "%u3042"`.`encodeURIComponent`将扩展字符百分比编码为UTF8字节序列.例如,`encodeURIComponent方法( "A")== "%C3%A5"`和`encodeURIComponent方法( "あ")== "%E3%81%82"`.我希望能解决任何问题. (2认同)
转义功能将被弃用！！https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/escape (2认同)
@Eyewritecode 我很高兴我能提供帮助，但我感到难过的是 10 年后我们仍然需要这个黑客...... (2认同)

问题是,一旦页面被提供,内容将采用内容类型元标记中描述的编码."错误"编码中的内容已经出现乱码.

在提供页面之前,您最好在服务器上执行此操作.或者正如我所知道的那样:UTF-8端到端或死亡.

由于如何从 ISO-8859-1 转换为 UTF-8的问题因此而结束，我将在这里发布我的解决方案。

问题是，当您尝试使用 XMLHttpRequest 获取任何内容时，如果 XMLHttpRequest.responseType 为“文本”或空，则 XMLHttpRequest.response 会转换为 DOMString，这就是问题所在。之后，几乎不可能可靠地使用该字符串。

现在，如果服务器的内容是 ISO-8859-1，您必须强制响应类型为“ Blob ”，然后将其转换为 DOMSTring。例如：

var ajax = new XMLHttpRequest();
ajax.open('GET', url, true);
ajax.responseType = 'blob';
ajax.onreadystatechange = function(){
    ...
    if(ajax.responseType === 'blob'){
        // Convert the blob to a string
        var reader = new window.FileReader();
        reader.addEventListener('loadend', function() {
           // For ISO-8859-1 there's no further conversion required
           Promise.resolve(reader.result);
        });
        reader.readAsBinaryString(ajax.response);
    }
}

Run Code Online (Sandbox Code Playgroud)

似乎魔法正在readAsBinaryString上发生，所以也许有人可以解释为什么它有效。

归档时间：	14 年，12 月前
查看次数：	156249 次
最近记录：	7 年，4 月前

将UTF-8 BOM添加到字符串/ Blob 44

Mcrypt js加密值与PHP生成的加密值不同mcrypt/Mcrypt JS解密对UTF-8字符不起作用 6

将ISO-8859-1转换为UTF-8 6

更多相关链接

在angularJS中&vs @和=之间有什么区别？ 235

JavaScript函数顺序:为什么重要？ 101

li:在{content:"■"之前; 如何在电子邮件文具中将这个特殊字符编码为Bullit？ 63

如何在Firefox扩展中使用jQuery 57

jQuery AJAX表单提交两次 43

jQuery - 取消下拉列表的确认对话框上的更改事件 27

JavaScript:如何将DOM元素序列化为字符串以便以后使用？ 26

将本机浏览器事件对象转换为jQuery事件对象 24

你如何使用Jquery在链中倒退？ 17

PHP反序列化JS序列化变量字符串 17

为什么减去这两次(在1927年)给出一个奇怪的结果？ 6628

忽略已提交到Git存储库的文件 2429

如何在JavaScript中清空数组？ 2198

如何在Linux中对文件进行符号链接？ 1865

在Node.js中编写文件 1538

抽象函数和虚函数有什么区别？ 1526

为什么将0.1f改为0会使性能降低10倍？ 1491

你什么时候使用git rebase而不是git merge？ 1461

检索HTML元素的位置(X,Y) 1418

如何将命令行参数传递给rake任务 1065