收到此错误,有没有人知道是什么触发了它?
#### sc is a spark connection
require(dplyr)
require(tidyr)
require(tibble)
require(sparklyr)
require(ggplot2)
require(scales)
require(DBI)
require(lubridate)
set.seed(.111)
my_df <- data.frame(test_col = sample(letters, 10, replace = FALSE))
my_spark_df <- copy_to(sc, my_df, overwrite = TRUE)
my_spark_df
# Source: spark<my_df> [?? x 1]
# test_col
# <chr>
# 1 x
# 2 g
# 3 i
# 4 n
# 5 t
# 6 e
# 7 r
# 8 v
# 9 l
# 10 k
my_spark_df %>% mutate(test_col = toupper(test_col))
#
# …Run Code Online (Sandbox Code Playgroud) 我有一个2332行的数据框,我想找到变量"POSTAL"相等的行,然后为它们分配变量"area"最大的行的所有值.
这是前50行
> data[1:50,]
POSTAL x y area
0 12920 573385.9 4972933 8.384062e+06
1 12921 623487.7 4971908 8.233541e+07
2 12923 583786.9 4978081 1.474410e+08
3 12924 613452.4 4927788 1.497106e+07
4 12934 588962.9 4965368 2.194386e+08
5 12935 596550.0 4967100 1.888997e+08
6 12944 618378.6 4921592 2.534854e+07
7 12952 583074.3 4953381 2.943473e+07
8 12955 582523.7 4959810 5.204965e+07
9 12958 611949.9 4979674 9.186815e+07
10 12959 601546.4 4979545 1.037816e+08
11 12962 611088.7 4951280 1.079834e+08
12 12972 612442.2 4934335 2.356099e+08
13 12978 595047.1 4941416 9.280316e+06
14 12979 …Run Code Online (Sandbox Code Playgroud) 我正在使用Rpart {}为分类变量构建决策树,我想知道是否应该使用仅有一组唯一行的完整数据集.
以下示例描述了如何在不使用 dplyr 和 sparklyr 聚合行的情况下计算不同值的数量。
有没有不破坏命令链的解决方法?
更一般地说,如何在 sparklyr 数据帧上使用 sql 之类的窗口函数。
## generating a data set
set.seed(.328)
df <- data.frame(
ids = floor(runif(10, 1, 10)),
cats = sample(letters[1:3], 10, replace = TRUE),
vals = rnorm(10)
)
## copying to Spark
df.spark <- copy_to(sc, df, "df_spark", overwrite = TRUE)
# Source: table<df_spark> [?? x 3]
# Database: spark_connection
# ids cats vals
# <dbl> <chr> <dbl>
# 9 a 0.7635935
# 3 a -0.7990092
# 4 a -1.1476570
# 6 c …Run Code Online (Sandbox Code Playgroud)