我是BigData生态系统的新手,有点入门。
我已经阅读了几篇有关使用Spark Streaming阅读Kafka主题的文章,但想知道是否可以使用Spark Job而不是Streaming从Kafka阅读?如果是,你们可以帮助我指出一些可以帮助我入门的文章或代码片段。
我第二部分的问题是以木地板格式写入hdfs。一旦我从Kafka看了书,我就假设我将有一个rdd。将此rdd转换为数据帧,然后将该数据帧作为木地板文件写入。这是正确的方法吗?
任何帮助表示赞赏。
谢谢
hadoop hdfs apache-kafka apache-spark parquet
apache-kafka ×1
apache-spark ×1
hadoop ×1
hdfs ×1
parquet ×1