Mar*_*ein 6 apache-spark pyspark
总体而言:我们的代码从 Snowflake(=数据仓库)获取数据,使用 Spark 在 Python 中对其执行某些转换,然后将其推送回 Snowflake。
当我在计算机上执行此任务时,一切进展顺利:#inputrows = #outputrows。当有人在计算机上执行该操作时,数据就会丢失。丢失的数据是随机的:每次此人执行任务时,都会返回不同的行和不同数量的行。此外,在 EMR 上执行任务不会返回正确的行数。我们执行完全相同的 Spark-submit 命令。
我们认为它不在“写入雪花”部分,因为在counts写入雪花之前,在代码中执行已经给出了错误的行数。
使用 Spark 时是否有可能丢失数据?
| 归档时间: |
|
| 查看次数: |
381 次 |
| 最近记录: |