Spark 中丢失数据？

Mar*_*ein 6 apache-spark pyspark

总体而言：我们的代码从 Snowflake（=数据仓库）获取数据，使用 Spark 在 Python 中对其执行某些转换，然后将其推送回 Snowflake。

当我在计算机上执行此任务时，一切进展顺利：#inputrows = #outputrows。当有人在计算机上执行该操作时，数据就会丢失。丢失的数据是随机的：每次此人执行任务时，都会返回不同的行和不同数量的行。此外，在 EMR 上执行任务不会返回正确的行数。我们执行完全相同的 Spark-submit 命令。

我们认为它不在“写入雪花”部分，因为在counts写入雪花之前，在代码中执行已经给出了错误的行数。

使用 Spark 时是否有可能丢失数据？

归档时间：	7 年，2 月前
查看次数：	381 次
最近记录：	6 年，11 月前

Apache Spark的主键 25

为Jupyter创建pyspark内核 10

无法将Spring启动java应用程序提交到Spark集群 8

SparkContext和StreamingContext可以在同一个程序中共存吗？ 8

PySpark.sql.filter没有按预期执行 7

如何确保我的 DataFrame 释放内存？ 5

无法解析...给定的输入列 5

Spark:如何按DataFrame中的不同值进行分组 2

带AWS Glue的Spark Catalog：找不到数据库 2

Flatmap和rdd同时保留其余条目 1

如何退出Vim编辑器？ 3558

为什么打印"B"比打印"#"要慢得多？ 2662

为什么在数组迭代中使用"for ... in"是一个坏主意？ 1761

如何在Python中删除尾部换行符？ 1593

如何修复java.lang.UnsupportedClassVersionError:不支持的major.minor版本 1532

如何使用对象作为成员循环一个普通的JavaScript对象？ 1521

检索HTML元素的位置(X,Y) 1418

对于Android Studio项目,我的.gitignore应该是什么？ 1210

如何让jQuery执行同步而非异步的Ajax请求？ 1173

什么是在Vim中评论/取消注释行的快速方法？ 1081