小编Hen*_*sis的帖子

从Kafka读取并在镶木地板中写入hdfs

我是BigData生态系统的新手,有点入门。

我已经阅读了几篇有关使用Spark Streaming阅读Kafka主题的文章,但想知道是否可以使用Spark Job而不是Streaming从Kafka阅读?如果是,你们可以帮助我指出一些可以帮助我入门的文章或代码片段。

我第二部分的问题是以木地板格式写入hdfs。一旦我从Kafka看了书,我就假设我将有一个rdd。将此rdd转换为数据帧,然后将该数据帧作为木地板文件写入。这是正确的方法吗?

任何帮助表示赞赏。

谢谢

hadoop hdfs apache-kafka apache-spark parquet

6
推荐指数
2
解决办法
7354
查看次数

标签 统计

apache-kafka ×1

apache-spark ×1

hadoop ×1

hdfs ×1

parquet ×1