尝试使用sdf_pivot开发版本sparklyr.唯一可行的聚合函数是count.如果我尝试sum或avg我得到一个例外陈述No matched method found for class org.apache.spark.sql.RelationalGroupedDataset.sum
这是一些重现的代码:
iris_tbl <- copy_to(sc, iris)
iris_tbl %>% sdf_pivot(Species ~ Sepal_Width) # this works
iris_tbl %>% sdf_pivot(Species ~ Sepal_Width, "sum") # this doesn't
Run Code Online (Sandbox Code Playgroud) 我有两个表,我想使用dplyr进行完全连接,但我不希望它删除任何列.根据文档和我自己的经验,它只保留左侧的连接列.由于连接值消失,当您有一个右侧记录的行时,这是一个问题.
例如,假设我有两个表a和b,
customerId | revenue customerId | state
-----------|--------- -----------|-------
1 | 2000 1 | CA
2 | 3000 3 | GA
4 | 4000 4 | NY
Run Code Online (Sandbox Code Playgroud)
做一些full_join(a, b, by="customerId")会产生的东西
customerId | revenue | state
-----------|---------|-------
1 | 2000 | CA
2 | 3000 | <NA>
<NA> | <NA> | GA
4 | 4000 | NY
Run Code Online (Sandbox Code Playgroud)
所以没有办法告诉第三行来自哪个客户.理想的输出是
customerId.a | customerId.b | revenue | state
-------------|--------------|---------|-------
1 | 1 | 2000 | CA
2 | <NA> | 3000 …Run Code Online (Sandbox Code Playgroud) 由于某种原因,这证明很难找到。我可以很容易地在repartitioninpyspark和 in 中找到该函数sparkr,但在 sparklyr 中似乎不存在这样的函数。
有谁知道如何在sparklyr.
尝试使用Ubuntu 16.04在R 3.3.0中安装rgdal软件包,install.packages("rgdal")并收到以下错误:
在/usr/local/lib/R/site-library/sp/include/sp.h:13:0中的文件中,来自rgdal.h:15,来自OGR_write.cpp:11:/ usr/share/R/include/Sh:41:3:错误:#error Sh无法在C++代码中使用:使用Rh代替#错误Sh不能用于C++代码:使用Rh代替
其他人看过这个并知道如何修复它?或者我们是否需要等待修复rgdal包本身?