在 R 中的数据框中查找所有唯一字符

Question

在 R 中的数据框中查找所有唯一字符

我想知道从 R 中的数据框中查找所有唯一字符的最有效方法是什么。

即例如：- [0-9,az,AZ,",","$","&","#"等]

> k
  cola colb
1 1&3#   %^
2 A4C%  89&

Run Code Online (Sandbox Code Playgroud)

我期望的输出是一个包含所有唯一字符（包括特殊字符）的列表。IE123#%^AC89&

Answer 1

r2e*_*ans 5

这没有什么真正有效的，但是......diamonds在ggplot2库中的数据集上进行演示，

library(ggplot2)
unique(unlist(lapply(diamonds, function(x) unlist(strsplit(as.character(x), "")))))
#  [1] "0" "." "2" "3" "1" "9" "4" "6" "5" "8" "7" "I" "d" "e" "a" "l" "P" "r" "m" "i" "u" "G" "o"
# [24] "V" "y" " " "F" "E" "J" "H" "D" "S"

Run Code Online (Sandbox Code Playgroud)

如果您对每种有多少感到好奇？

table(unlist(lapply(diamonds, function(x) unlist(strsplit(as.character(x), "")))))
#             .      0      1      2      3      4      5      6      7      8      9      a 
#  12082 261929  81785 142173 135042 108355 121267 157242 161862  91438  71904  67144  23161 
#      d      D      e      E      F      G      H      i      I      J      l      m      o 
#  38539   6775  47424   9797  12942  28280   8304  15401  51763   2808  21551  27582  33976 
#      P      r      S      u      V      y 
#  13791  27483  51409  13791  49953  12082

Run Code Online (Sandbox Code Playgroud)

（这实际上是 akrun 的回答......在我看到他的评论编辑之前发布。）

使用您的示例框架：

k <- data.frame(cola = c("1&3#", "A4C%"), colb = c("%^", "89&"), stringsAsFactors = FALSE)
unique(unlist(lapply(k, function(x) unlist(strsplit(as.character(x), "")))))
#  [1] "1" "&" "3" "#" "A" "4" "C" "%" "^" "8" "9"

Run Code Online (Sandbox Code Playgroud)

如果你想把它们放在一个有序的无空格字符串中，

paste(sort(unique(unlist(lapply(k, function(x) unlist(strsplit(as.character(x), "")))))), collapse = "")
# [1] "#%&^13489AC"

Run Code Online (Sandbox Code Playgroud)

由于您的问题表明您正在考虑在某处的正则表达式中使用它，因此您可以将其夹在括号中。我不会经历寻找字符范围（例如，AD-GW-Z24-9）的痛苦，因为这会给你带来很少的正则表达式效率，但需要更多的努力来生成。

归档时间：	5 年，11 月前
查看次数：	43 次
最近记录：	5 年，11 月前