R-如何使用sparklyr复制spark数据框中的行

Question

R-如何使用sparklyr复制spark数据框中的行

有没有一种方法可以使用sparklyr / dplyr函数复制Spark数据帧的行？

sc <- spark_connect(master = "spark://####:7077")

df_tbl <- copy_to(sc, data.frame(row1 = 1:3, row2 = LETTERS[1:3]), "df")

Run Code Online (Sandbox Code Playgroud)

这是所需的输出，保存到新的spark tbl中：

> df2_tbl
   row1  row2
  <int> <chr>
1     1     A
2     1     A
3     1     A
4     2     B
5     2     B
6     2     B
7     3     C
8     3     C
9     3     C

Run Code Online (Sandbox Code Playgroud)

Answer 1

hi-*_*zir 6

有了sparklyr您可以使用array，并explode通过@Oli的建议：

df_tbl %>% 
  mutate(arr = explode(array(1, 1, 1))) %>% 
  select(-arr)

# # Source:   lazy query [?? x 2]
# # Database: spark_connection
#    row1 row2 
#   <int> <chr>
# 1     1 A    
# 2     1 A    
# 3     1 A    
# 4     2 B    
# 5     2 B    
# 6     2 B    
# 7     3 C    
# 8     3 C    
# 9     3 C

Run Code Online (Sandbox Code Playgroud)

和概括

library(rlang)

df_tbl %>%  
  mutate(arr = !!rlang::parse_quo(
    paste("explode(array(", paste(rep(1, 3), collapse = ","), "))")
  )) %>% select(-arr)

# # Source:   lazy query [?? x 2]
# # Database: spark_connection
#    row1 row2 
#   <int> <chr>
# 1     1 A    
# 2     1 A    
# 3     1 A    
# 4     2 B    
# 5     2 B    
# 6     2 B    
# 7     3 C    
# 8     3 C    
# 9     3 C

Run Code Online (Sandbox Code Playgroud)

您可以在其中轻松调整行数。

归档时间：	8 年，7 月前
查看次数：	501 次
最近记录：	7 年，12 月前