我有一些输入文本,如下所示:
names <- c(" ", " ")
users <- c("user1", "user2")
df <- cbind(names, users) %>% as.data.frame()
Run Code Online (Sandbox Code Playgroud)
我正在尝试将其转换为 R 中的可读文本,因为现在它似乎并未将其识别为这样的文本。例如,如果我尝试仅将它们转换为小写:
df$lowername <- tolower(df$names)
Run Code Online (Sandbox Code Playgroud)
它只会吐出同样的东西。
有什么方法可以将这样的文本字符串转换为 R 中可读的文本格式,以便我可以像任何其他字符串一样操作/清理文本?
那么名字会变成“Enyis Suaza”和“Victoria Langel”吗?
这是一种选择
library(Unicode)
library(stringr)
unname(str_to_title(sapply(df$names, \(x) {
x <- u_char_name(as.u_char(utf8ToInt(x)))
paste(ifelse(x != "SPACE", substring(x, nchar(x)), " "), collapse = "")
})))
Run Code Online (Sandbox Code Playgroud)
-输出
[1] "Enyis Suaza" "Victoria Langel"
Run Code Online (Sandbox Code Playgroud)