小编tmi*_*miu的帖子

无法在clusterApply中找到函数

我有这个可重复的R片段

rm(list=ls())

library(doSNOW)

f <- function(a, b) a+b
g <- function(c) f(c*c, c+c)

v <- c(1, 2, 3, 4, 5, 6)

cl <- makeMPIcluster(1)
cat( clusterApply(cl, v, g) )
stopCluster(cl)

Run Code Online (Sandbox Code Playgroud)

我收到以下错误消息:

Error in checkForRemoteErrors(val) : 
  6 nodes produced errors; first error: could not find function "f"

Run Code Online (Sandbox Code Playgroud)

我在Ubuntu下使用R 2.14.1.MPI已安装并正常运行.

我知道foreach构造存在类似的问题,但它允许通过.export参数手动引用函数.我找不到与clusterApply类似的东西.这有解决方法吗？

谢谢!

tmi*_*miu

lucky-day

11
推荐指数

2
解决办法

6874
查看次数

在Spark结构化流中组合窗口（groupBy）和mapGroupsWithState（groupByKey）

当前使用Spark 2.2.0结构化流。

给定带有水印的带有时间戳的数据流，是否有一种方法可以将（1）groupBy通过时间戳字段和其他分组条件实现开窗的操作与（2）相结合groupByKey，以便应用于mapGroupsWithState自定义会话的组？

还是我必须以某种方式将开窗和其他分组逻辑嵌入其中groupByKey？

对于上下文：

groupBy在数据集上支持窗口化的calling 返回一个没有的RelationalGroupedDatasetmapGroupsWithState。
调用groupByKey（支持mapGroupsWithState）返回KeyValueGroupedDataset，但不支持窗口！

编辑：

SPARK-21641现在已跟踪该问题- 在Spark Structured Streaming中组合窗口（groupBy）和mapGroupsWithState（groupByKey）。

apache-spark spark-structured-streaming

tmi*_*miu

2018 10-28

7
推荐指数

0
解决办法

780
查看次数