Apache Spark 的非确定性来源

sav*_*ava 5 non-deterministic apache-spark

我试图找出 Spark 中非确定性的所有来源。我知道不确定性可能来自用户提供的函数，例如在 map(f) 中，f 涉及随机。相反，我正在寻找可能导致非确定性的操作，无论是在较低级别的转换/操作方面，例如改组。

我的头顶上浮现出：

需要混洗（或一般的网络流量）的操作可能会以不确定的顺序输出值。它包括明显的情况，例如groupBy*或join。一个不太明显的例子是排序后的平局顺序
依赖于不断变化的数据源或可变全局状态的操作
在转换内部执行的副作用，包括accumulator更新

归档时间：	9 年，11 月前
查看次数：	1448 次
最近记录：	9 年，11 月前

setMaster`local [*]`在spark中意味着什么？ 39

Spark,优化DF的度量生成 10

R 和 Sparklyr：为什么简单的查询这么慢？ 10

发送Spark流量指标以打开tsdb 9

Spark 2.2.0 - 如何向DynamoDB写入/读取DataFrame 8

spark 2.2 cache()导致驱动程序OutOfMemoryerror 6

Spark DataFrame-使用SQL读取管道分隔文件？ 5

从包含嵌套值的 Spark 列中提取值 5

通过对String的反射来定义spark udf 4

删除列 psypark 数据框中的前 n 个字符 2

为什么处理排序数组比处理未排序数组更快？ 23665

如何从JavaScript对象中删除属性？ 5813

使用Git版本控制查看文件的更改历史记录 2920

C++ 11引入了标准化的内存模型.这是什么意思？它将如何影响C++编程？ 1810

'real','user'和'sys'在time(1)的输出中意味着什么？ 1622

什么是monad？ 1373

我应该如何道德地接近用户密码存储以便以后的明文检索？ 1346

Promises和Observables有什么区别？ 1291

servlet如何工作？实例化,会话,共享变量和多线程 1105

Vim中的remap,noremap,nnoremap和vnoremap映射命令有什么区别？ 1045