我有这个可重复的R片段
rm(list=ls())
library(doSNOW)
f <- function(a, b) a+b
g <- function(c) f(c*c, c+c)
v <- c(1, 2, 3, 4, 5, 6)
cl <- makeMPIcluster(1)
cat( clusterApply(cl, v, g) )
stopCluster(cl)
Run Code Online (Sandbox Code Playgroud)
我收到以下错误消息:
Error in checkForRemoteErrors(val) :
6 nodes produced errors; first error: could not find function "f"
Run Code Online (Sandbox Code Playgroud)
我在Ubuntu下使用R 2.14.1.MPI已安装并正常运行.
我知道foreach构造存在类似的问题,但它允许通过.export参数手动引用函数.我找不到与clusterApply类似的东西.这有解决方法吗?
谢谢!
当前使用Spark 2.2.0结构化流。
给定带有水印的带有时间戳的数据流,是否有一种方法可以将(1)groupBy通过时间戳字段和其他分组条件实现开窗的操作与(2)相结合groupByKey,以便应用于mapGroupsWithState自定义会话的组?
还是我必须以某种方式将开窗和其他分组逻辑嵌入其中groupByKey?
对于上下文:
groupBy在数据集上支持窗口化的calling 返回一个没有的RelationalGroupedDatasetmapGroupsWithState。
调用groupByKey(支持mapGroupsWithState)返回KeyValueGroupedDataset,但不支持窗口!
编辑:
SPARK-21641现在已跟踪该问题- 在Spark Structured Streaming中组合窗口(groupBy)和mapGroupsWithState(groupByKey)。