我有一个刮刀正在从别处收集一些我无法控制的数据.源数据执行各种有趣的Unicode字符,但它将它们转换为非常无用的格式,所以
\u00e4
Run Code Online (Sandbox Code Playgroud)
对于一个小的'a'与变音符号(没有我认为应该在那里的双引号)*.当然这会在我的HTML中呈现为纯文本.
是否有任何现实的方法将unicode源转换为适当的字符,不涉及我手动处理每个字符串序列并在刮擦期间替换它们?
*这是它吐出的json样本:
({"content":{"pagelet_tab_content":"<div class=\"post_user\">Latest post by <span>D\u00e4vid<\/span><\/div>\n})
Run Code Online (Sandbox Code Playgroud)