小编Alx*_*lxH的帖子

R中的Unicode规范化(表单C):将带有重音符号的所有字符转换为它们的单一字符形式?

在Unicode中,带有重音的字母可以用两种方式表示:强调字母本身,以及裸字母加上重音的组合.例如,é(+ U00E9)和e'(+ U0065 + U0301)通常以相同的方式显示.

R呈现以下内容(版本3.0.2,Mac OS 10.7.5):

> "\u00e9"
[1] "é"
> "\u0065\u0301"
[1] "é"
Run Code Online (Sandbox Code Playgroud)

但是,当然:

> "\u00e9" == "\u0065\u0301"
[1] FALSE
Run Code Online (Sandbox Code Playgroud)

R中是否有一个将两个unicode字符转换成单字符形式的函数?在这里特别地,它会坍塌"\u0065\u0301""\u00e9".

这对处理大量字符串非常方便.另外,单字符表单可以很容易地转换为其他编码iconv- 至少对于通常的Latin1字符 - 并且更好地处理plot.

非常感谢提前.

unicode encoding r latin unicode-normalization

13
推荐指数
1
解决办法
1704
查看次数

标签 统计

encoding ×1

latin ×1

r ×1

unicode ×1

unicode-normalization ×1