Spark 中丢失数据?

Mar*_*ein 6 apache-spark pyspark

总体而言:我们的代码从 Snowflake(=数据仓库)获取数据,使用 Spark 在 Python 中对其执行某些转换,然后将其推送回 Snowflake。

当我在计算机上执行此任务时,一切进展顺利:#inputrows = #outputrows。当有人在计算机上执行该操作时,数据就会丢失。丢失的数据是随机的:每次此人执行任务时,都会返回不同的行和不同数量的行。此外,在 EMR 上执行任务不会返回正确的行数。我们执行完全相同的 Spark-submit 命令。

我们认为它不在“写入雪花”部分,因为在counts写入雪花之前,在代码中执行已经给出了错误的行数。

使用 Spark 时是否有可能丢失数据?