Igo*_*bin 3 string unicode r string-length
我知道如何在R中查找非Unicode字符串的长度。
nchar("ABC")
Run Code Online (Sandbox Code Playgroud)
(感谢在这里回答问题的每个人:如何在R中找到字符串的长度?)。
但是Unicode字符串呢?
如何在Unicode字符串中找到字符串的长度(字符串中的字符数)?如何在R中的Unicode字符串中找到长度(以字节为单位)和字符数(符文,符号)?
您可以使用nchar的数量characters和的数量bytes:
nchar("bi\u00dfchen", type="chars")
#[1] 7
nchar("bi\u00dfchen", type="bytes")
#[1] 8
Run Code Online (Sandbox Code Playgroud)
实际上,在帮助中,您可以找到有关如何计算字符串大小的详细信息:
字符串的“大小”可以通过以下三种方式之一进行测量(对应于type参数):
bytes
存储字符串所需的字节数(在C中加上一个不计入最后一个终止符)。 字符
可读字符的数量。
width
cat将用于以等宽字体打印字符串的列数。如果无法计算,则与char相同。
如果您想知道字符串中可能包含(或可能不包含)unicode的“符号”数(即不解释 unicode符号),则可以使用stri_escape_unicodepackage中的function stringi:
library(stringi)
nchar(stri_escape_unicode("bi\u00dfchen")) # same as stri_length(stri_escape_unicode("bi\u00dfchen"))
# [1] 12
Run Code Online (Sandbox Code Playgroud)