亚马逊EMR和Spark流媒体

oiv*_*doo 7 amazon-web-services amazon-emr apache-spark spark-streaming spark-structured-streaming

Amazon EMR,Apache Spark 2.3,Apache Kafka,每天约10万条记录.

Apache Spark用于批量处理事件5分钟,每天一次工作节点死亡,AWS自动重新配置节点.在查看日志消息时,它看起来在节点中没有空间,但它们在那里有大约1Tb的存储空间.

在有人绰绰有余的情况下,是否有人存在存储空间问题？

我当时认为日志聚合无法将日志正确复制到s3存储桶,这应该由我看到的spark进程自动完成.

我应该提供哪些信息来帮助解决此问题？

先感谢您!

我在 EMR 上的结构化流应用程序中遇到了类似的问题，磁盘空间迅速增加到应用程序停止/崩溃的程度。

就我而言，修复方法是禁用 Spark 事件日志：

spark.eventLog.enabled到false

http://queirozf.com/entries/spark-streaming-commong-pitfalls-and-tips-for-long-running-streaming-applications#aws-emr-only-event-logs-under-hdfs-var-log-使用历史记录服务器时的 Spark 应用程序

归档时间：	7 年，7 月前
查看次数：	648 次
最近记录：	7 年，6 月前

如何在运行Amazon Linux Distro的EC2 t2.micro实例上安装PHP 7 37

不支持java.util.Date 16

AWS RDS 到 PgAdmin 保存属性时出错无法连接到服务器：超时已过期 15

如何在CloudWatch中将值传递给Lambda函数？ 14

根据Spark中的另一个RDD进行过滤 13

推送到 SQS 时的 AWS SNS 元数据 6

Spark 任务大小太大 5

Spark 历史服务器中的空白存储选项卡 5

如何在没有数据框的情况下在Spark中执行列表达式 5

.rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing) 错误 Spark Scala 1

如何在Java中读取/转换InputStream为String？ 3864

你如何获得JavaScript的时间戳？ 3844

"git add -A"和"git add"之间的区别. 2788

使用__init __()方法理解Python super() 2366

为什么GCC不优化a*a*a*a*a*a到(a*a*a)*(a*a*a)？ 2083

在终端上打印颜色？ 1929

如何在IntelliJ中永久启用行号？ 1341

为什么不从List <T>继承？ 1299

生成0到9之间的随机整数 1224

macOS Mojave Update后,Git无法正常工作(xcrun:错误:无效的活动开发者路径(/ Library/Developer/CommandLineTools) 1190