亚马逊EMR和Spark流媒体

oiv*_*doo 7 amazon-web-services amazon-emr apache-spark spark-streaming spark-structured-streaming

Amazon EMR,Apache Spark 2.3,Apache Kafka,每天约10万条记录.

Apache Spark用于批量处理事件5分钟,每天一次工作节点死亡,AWS自动重新配置节点.在查看日志消息时,它看起来在节点中没有空间,但它们在那里有大约1Tb的存储空间.

在有人绰绰有余的情况下,是否有人存在存储空间问题?

我当时认为日志聚合无法将日志正确复制到s3存储桶,这应该由我看到的spark进程自动完成.

我应该提供哪些信息来帮助解决此问题?

先感谢您!

bp2*_*010 2

我在 EMR 上的结构化流应用程序中遇到了类似的问题,磁盘空间迅速增加到应用程序停止/崩溃的程度。

就我而言,修复方法是禁用 Spark 事件日志:

spark.eventLog.enabledfalse

http://queirozf.com/entries/spark-streaming-commong-pitfalls-and-tips-for-long-running-streaming-applications#aws-emr-only-event-logs-under-hdfs-var-log-使用历史记录服务器时的 Spark 应用程序