R-如何使用sparklyr复制spark数据框中的行

Igo*_*gor 5 r apache-spark sparklyr

有没有一种方法可以使用sparklyr / dplyr函数复制Spark数据帧的行?

sc <- spark_connect(master = "spark://####:7077")

df_tbl <- copy_to(sc, data.frame(row1 = 1:3, row2 = LETTERS[1:3]), "df")
Run Code Online (Sandbox Code Playgroud)

这是所需的输出,保存到新的spark tbl中:

> df2_tbl
   row1  row2
  <int> <chr>
1     1     A
2     1     A
3     1     A
4     2     B
5     2     B
6     2     B
7     3     C
8     3     C
9     3     C
Run Code Online (Sandbox Code Playgroud)

hi-*_*zir 6

有了sparklyr您可以使用array,并explode通过@Oli的建议:

df_tbl %>% 
  mutate(arr = explode(array(1, 1, 1))) %>% 
  select(-arr)

# # Source:   lazy query [?? x 2]
# # Database: spark_connection
#    row1 row2 
#   <int> <chr>
# 1     1 A    
# 2     1 A    
# 3     1 A    
# 4     2 B    
# 5     2 B    
# 6     2 B    
# 7     3 C    
# 8     3 C    
# 9     3 C    
Run Code Online (Sandbox Code Playgroud)

和概括

library(rlang)

df_tbl %>%  
  mutate(arr = !!rlang::parse_quo(
    paste("explode(array(", paste(rep(1, 3), collapse = ","), "))")
  )) %>% select(-arr)

# # Source:   lazy query [?? x 2]
# # Database: spark_connection
#    row1 row2 
#   <int> <chr>
# 1     1 A    
# 2     1 A    
# 3     1 A    
# 4     2 B    
# 5     2 B    
# 6     2 B    
# 7     3 C    
# 8     3 C    
# 9     3 C   
Run Code Online (Sandbox Code Playgroud)

您可以在其中轻松调整行数。