小编Dav*_*aid的帖子

什么聚合函数可以与sparklyr中的sdf_pivot一起使用?

尝试使用sdf_pivot开发版本sparklyr.唯一可行的聚合函数是count.如果我尝试sumavg我得到一个例外陈述No matched method found for class org.apache.spark.sql.RelationalGroupedDataset.sum

这是一些重现的代码:

iris_tbl <- copy_to(sc, iris)
iris_tbl %>% sdf_pivot(Species ~ Sepal_Width) # this works
iris_tbl %>% sdf_pivot(Species ~ Sepal_Width, "sum") # this doesn't 
Run Code Online (Sandbox Code Playgroud)

r apache-spark sparklyr

3
推荐指数
1
解决办法
905
查看次数

是否可以在dplyr中进行完全连接并保留连接中使用的所有列?

我有两个表,我想使用dplyr进行完全连接,但我不希望它删除任何列.根据文档和我自己的经验,它只保留左侧的连接列.由于连接值消失,当您有一个右侧记录的行时,这是一个问题.

例如,假设我有两个表a和b,

customerId | revenue               customerId | state
-----------|---------              -----------|-------
    1      | 2000                       1     |  CA
    2      | 3000                       3     |  GA
    4      | 4000                       4     |  NY
Run Code Online (Sandbox Code Playgroud)

做一些full_join(a, b, by="customerId")会产生的东西

customerId | revenue | state
-----------|---------|-------
    1      |   2000  |  CA
    2      |   3000  | <NA>
   <NA>    |   <NA>  |  GA
    4      |   4000  |  NY
Run Code Online (Sandbox Code Playgroud)

所以没有办法告诉第三行来自哪个客户.理想的输出是

customerId.a | customerId.b | revenue | state
-------------|--------------|---------|-------
      1      |      1       |   2000  |  CA
      2      |     <NA>     |   3000 …
Run Code Online (Sandbox Code Playgroud)

r dplyr sparklyr

2
推荐指数
2
解决办法
4330
查看次数

如何在 sparklyr 中重新分区数据框

由于某种原因,这证明很难找到。我可以很容易地在repartitioninpyspark和 in 中找到该函数sparkr,但在 sparklyr 中似乎不存在这样的函数。

有谁知道如何在sparklyr.

r apache-spark sparklyr

2
推荐指数
1
解决办法
2063
查看次数

无法在R 3.3.0中安装rgdal软件包

尝试使用Ubuntu 16.04在R 3.3.0中安装rgdal软件包,install.packages("rgdal")并收到以下错误:

在/usr/local/lib/R/site-library/sp/include/sp.h:13:0中的文件中,来自rgdal.h:15,来自OGR_write.cpp:11:/ usr/share/R/include/Sh:41:3:错误:#error Sh无法在C++代码中使用:使用Rh代替#错误Sh不能用于C++代码:使用Rh代替

其他人看过这个并知道如何修复它?或者我们是否需要等待修复rgdal包本身?

r gdal rgdal

0
推荐指数
1
解决办法
527
查看次数

标签 统计

r ×4

sparklyr ×3

apache-spark ×2

dplyr ×1

gdal ×1

rgdal ×1