tldr; 无法使用 Kinesis Spark Streaming 集成,因为它不接收任何数据。
spark-streaming-kinesis-asl-assembly_2.10-1.5.2.jar 下载并添加到类路径job.py或job.jar(只是阅读和打印)提交。KCL Worker 线程有时会说“正在睡觉……” - 它可能会被悄悄地破坏(我检查了我能找到的所有 stderr,但没有任何提示)。也许吞下了 OutOfMemoryError ......但我对此表示怀疑,因为每秒 1 条记录的数量。
-------------------------------------
时间:1448645109000 毫秒
-------------------------------------
15/11/27 17:25:09 INFO JobScheduler:完成作业流作业 1448645109000 ms.0 从作业集时间 1448645109000 ms
15/11/27 17:25:09 信息 KinesisBackedBlockRDD:从持久性列表中删除 RDD 102
15/11/27 17:25:09 INFO JobScheduler:总延迟:0.002 秒,时间 1448645109000 毫秒(执行:0.001 秒)
15/11/27 17:25:09 信息块管理器:删除 RDD 102
15/11/27 17:25:09 INFO KinesisInputDStream:在 NewClass.java:25 of time 1448645109000 ms 处的 createStream 中删除 RDD KinesisBackedBlockRDD[102] …