小编pko*_*pac的帖子

Apache Spark Kinesis 集成:已连接,但未收到任何记录

tldr; 无法使用 Kinesis Spark Streaming 集成,因为它不接收任何数据。

  1. 测试流已设置,nodejs 应用程序每秒发送 1 个简单记录。
  2. 标准 Spark 1.5.2 集群设置主节点和工作节点(4 核),环境中带有 docker-compose、AWS 凭证
  3. spark-streaming-kinesis-asl-assembly_2.10-1.5.2.jar 下载并添加到类路径
  4. job.pyjob.jar(只是阅读和打印)提交。
  5. 一切似乎都很好,但没有收到任何记录。

KCL Worker 线程有时会说“正在睡觉……” - 它可能会被悄悄地破坏(我检查了我能找到的所有 stderr,但没有任何提示)。也许吞下了 OutOfMemoryError ......但我对此表示怀疑,因为每秒 1 条记录的数量。

    -------------------------------------
    时间:1448645109000 毫秒
    -------------------------------------

    15/11/27 17:25:09 INFO JobScheduler:完成作业流作业 1448645109000 ms.0 从作业集时间 1448645109000 ms
    15/11/27 17:25:09 信息 KinesisBackedBlockRDD:从持久性列表中删除 RDD 102
    15/11/27 17:25:09 INFO JobScheduler:总延迟:0.002 秒,时间 1448645109000 毫秒(执行:0.001 秒)
    15/11/27 17:25:09 信息块管理器:删除 RDD 102
    15/11/27 17:25:09 INFO KinesisInputDStream:在 NewClass.java:25 of time 1448645109000 ms 处的 createStream 中删除 RDD KinesisBackedBlockRDD[102] …

apache-spark amazon-kinesis spark-streaming

5
推荐指数
1
解决办法
3597
查看次数