用于在Sparklyr（R + spark）中提取列名称的简单命令

Question

用于在Sparklyr（R + spark）中提取列名称的简单命令

Pra*_*nna 5 r dplyr apache-spark sparklyr

在base r中，很容易从数据框中提取列（变量）的名称

> testdf <- data.frame(a1 = rnorm(1e5), a2 = rnorm(1e5), a3 = rnorm(1e5), a4 = rnorm(1e5), a5 = rnorm(1e5), a6 = rnorm(1e5))  
> names(testdf)  
[1] "a1" "a2" "a3" "a4" "a5" "a6"

Run Code Online (Sandbox Code Playgroud)

但是使用Sparklyr时，事情变得更加复杂。复制数据框以生成火花后，

> testdf_tbl <- copy_to(sc, testdf, overwrite = TRUE)  
> names(testdf_tbl)  
[1] "src" "ops"

Run Code Online (Sandbox Code Playgroud)

变量名称实际上位于“ ops”内部

> testdf_tbl$ops$vars  
[1] "a1" "a2" "a3" "a4" "a5" "a6"

Run Code Online (Sandbox Code Playgroud)

如果这一切全部完成，那就没有问题了（也不需要问这个问题）。但是，每次对testdf_tbl进行操作时，列/变量的名称都会更改其位置，如下所示。

> testdf_tbl <- testdf_tbl %>% select(-a1)  
> testdf_tbl$ops$vars  
NULL  
> testdf_tbl$ops$x$vars  
[1] "a1" "a2" "a3" "a4" "a5" "a6"

Run Code Online (Sandbox Code Playgroud)

另一个操作将另一个$ x添加到路径..依此类推。

> testdf_tbl <- testdf_tbl %>% select(-a2)  
> testdf_tbl$ops$x$vars  
NULL  
> testdf_tbl$ops$x$x$vars  
[1] "a1" "a2" "a3" "a4" "a5" "a6"

Run Code Online (Sandbox Code Playgroud)

更糟糕的是，变量列表不能反映我们所做的选择操作，它们仍将a1，a2列为列名。在哪里

> head(testdf_tbl)  
Source:   query [?? x 4]  
Database: spark connection master=local[24] app=sparklyr local=TRUE  
        a3           a4          a5         a6  
        dbl          dbl         dbl        dbl  
1 -1.146368875  1.691698406  0.43231629  1.3349111  
2  0.664928710 -1.332242020  0.05380729  1.0139253  
3  1.158095695 -0.097098980 -0.61885204  0.1504693  
4  0.001595841 -0.003765908  0.27935192 -0.3039085  
5 -0.133446040  0.269329076  1.57210274  1.7762602  
6  0.006468698 -1.300439537  0.74057307  0.1320428

Run Code Online (Sandbox Code Playgroud)

很明显，选择操作产生的影响是如何使用spark数据帧的术语。

当然，有一种简单直接的方法可以提取sparklyr中names()以base r 为la的变量/列的当前名称。

Answer 1

小智 9

正如凯文所说，可行tbl_vars，但如果您希望它更像“base-R”，colnames也可以。

归档时间：	9 年，3 月前
查看次数：	2022 次
最近记录：	9 年，2 月前