将Unicode转换为R中的可读字符

Question

将Unicode转换为R中的可读字符

我有一个.csv，其中使用时编码会返回“未知”和“ UTF-8” Encoding(data)。文本如下所示：

<U+1042><U+1040><U+1042><U+1040> <U+1019><U+103D><U+102C>\n\n<U+1010><U+102D><U+102F><U+1004><U+1039><U+1038><U+103B><U+1015><U+100A><U+1039><U+1000><U+102D><U+102F><U+101C><U+1032> <U+1000><U+102C><U+1000><U+103C>

我想将其转换为可读的格式，在这种情况下为缅甸语言，因此看起来有点像这样：

??????????????

奇怪的是，该数据中的文本以前在RStudio中是可读的，但是在某些时候-我不知道什么时候-这种情况发生了变化，现在我只能看到Unicode字符。我尝试了这些解决方案，但没有成功。

Answer 1

Chr*_*ris 5

您可以执行以下操作：

library(stringi)

string <- "<U+1042><U+1040><U+1042><U+1040> <U+1019><U+103D><U+102C>\n\n<U+1010><U+102D><U+102F><U+1004><U+1039><U+1038><U+103B><U+1015><U+100A><U+1039><U+1000><U+102D><U+102F><U+101C><U+1032> <U+1000><U+102C><U+1000><U+103C>" 

cat(stri_unescape_unicode(gsub("<U\\+(....)>", "\\\\u\\1", string)))

Run Code Online (Sandbox Code Playgroud)

结果是：

???? ???

??????????????? ????

归档时间：	7 年，8 月前
查看次数：	1106 次
最近记录：	7 年，8 月前