小编Mou*_*d_S的帖子

找不到函数“switch_lang”

收到此错误，有没有人知道是什么触发了它？

#### sc is a spark connection

require(dplyr)
require(tidyr)
require(tibble)
require(sparklyr)
require(ggplot2)
require(scales)
require(DBI)
require(lubridate)


set.seed(.111)

my_df <- data.frame(test_col = sample(letters, 10, replace = FALSE))

my_spark_df <- copy_to(sc, my_df, overwrite = TRUE)

my_spark_df

# Source: spark<my_df> [?? x 1]
# test_col
# <chr>   
# 1 x       
# 2 g       
# 3 i       
# 4 n       
# 5 t       
# 6 e       
# 7 r       
# 8 v       
# 9 l       
# 10 k       


my_spark_df %>% mutate(test_col = toupper(test_col))

# 
# …

Run Code Online (Sandbox Code Playgroud)

r dplyr apache-spark sparklyr rlang

Mou*_*d_S

2019 07-02

5
推荐指数

1
解决办法

2047
查看次数

R中的循环,基于不同的变量聚合数据

我有一个2332行的数据框,我想找到变量"POSTAL"相等的行,然后为它们分配变量"area"最大的行的所有值.

这是前50行

> data[1:50,]
   POSTAL        x       y         area
0   12920 573385.9 4972933 8.384062e+06
1   12921 623487.7 4971908 8.233541e+07
2   12923 583786.9 4978081 1.474410e+08
3   12924 613452.4 4927788 1.497106e+07
4   12934 588962.9 4965368 2.194386e+08
5   12935 596550.0 4967100 1.888997e+08
6   12944 618378.6 4921592 2.534854e+07
7   12952 583074.3 4953381 2.943473e+07
8   12955 582523.7 4959810 5.204965e+07
9   12958 611949.9 4979674 9.186815e+07
10  12959 601546.4 4979545 1.037816e+08
11  12962 611088.7 4951280 1.079834e+08
12  12972 612442.2 4934335 2.356099e+08
13  12978 595047.1 4941416 9.280316e+06
14  12979 …

Run Code Online (Sandbox Code Playgroud)

loops r

Mou*_*d_S

lucky-day

3
推荐指数

1
解决办法

70
查看次数

重复行如何影响决策树？

我正在使用Rpart {}为分类变量构建决策树,我想知道是否应该使用仅有一组唯一行的完整数据集.

r decision-tree rpart

Mou*_*d_S

lucky-day

2
推荐指数

1
解决办法

1275
查看次数

唯一值的数量

以下示例描述了如何在不使用 dplyr 和 sparklyr 聚合行的情况下计算不同值的数量。

有没有不破坏命令链的解决方法？

更一般地说，如何在 sparklyr 数据帧上使用 sql 之类的窗口函数。

## generating a data set 

set.seed(.328)
df <- data.frame(
  ids = floor(runif(10, 1, 10)),
  cats = sample(letters[1:3], 10, replace = TRUE),
  vals = rnorm(10)
)



## copying to Spark

df.spark <- copy_to(sc, df, "df_spark", overwrite = TRUE)

# Source:   table<df_spark> [?? x 3]
# Database: spark_connection
#   ids  cats       vals
# <dbl> <chr>      <dbl>
#  9     a      0.7635935
#  3     a     -0.7990092
#  4     a     -1.1476570
#  6     c …

Run Code Online (Sandbox Code Playgroud)

r dplyr apache-spark apache-spark-sql sparklyr

Mou*_*d_S

2018 03-29

2
推荐指数

1
解决办法

4512
查看次数