列出数据框中每一列的唯一值

Mix*_*lis 3 r matrix dataframe

假设您有一个很大的“ csv”格式的输入文件。您想知道每列中出现的不同值。你会怎么做?

例如

column1    column2    column3    column4
----------------------------------------
value11    value12    value13    value14
value21    value22    value23    value24
...
valueN1    valueN2    valueN3    valueN4
Run Code Online (Sandbox Code Playgroud)

所以我希望我的输出是这样的:

column1 has these values: value11, value21, ...valueN1。但我不必再看到相同值的重复出现。我只需要了解我的数据的全部含义。

李哲源*_*李哲源 6

dat读取csv文件后,让它成为您的数据框,您可以

ulst <- lapply(dat, unique)
Run Code Online (Sandbox Code Playgroud)

如果您还想知道每一列的唯一值的数量,请执行

k <- lengths(ulst)
Run Code Online (Sandbox Code Playgroud)

  • 或者使用“dplyr”,即。`dat %&gt;% summarise_each(funs(n_distinct))` (2认同)