小编Pan*_*tas的帖子

如何在Structured Streaming的kafka数据源中为消费者组设置group.id？

我想使用 Spark Structured Streaming 从安全的 kafka 中读取数据。这意味着我需要强制使用特定的 group.id。但是，正如文档中所述，这是不可能的。尽管如此，在 databricks 文档https://docs.azuredatabricks.net/spark/latest/structured-streaming/kafka.html#using-ssl 中，它说这是可能的。这是否仅指 azure 集群？

另外，通过查看 apache/spark repo https://github.com/apache/spark/blob/master/docs/structured-streaming-kafka-integration.md的 master 分支的文档，我们可以理解这样的功能旨在在以后的 Spark 版本中添加。你知道这样一个稳定版本的任何计划，这将允许设置消费者 group.id 吗？

如果没有，Spark 2.4.0 是否有任何解决方法可以设置特定的消费者 group.id？

apache-kafka apache-spark spark-structured-streaming spark-kafka-integration

Pan*_*tas

2020 12-22

9
推荐指数

2
解决办法

5504
查看次数

Pyspark 2.4.0，使用读取流从kafka读取avro-Python

我正在尝试使用PySpark 2.4.0从Kafka读取avro消息。

spark-avro外部模块可以为读取avro文件提供以下解决方案：

df = spark.read.format("avro").load("examples/src/main/resources/users.avro") 
df.select("name", "favorite_color").write.format("avro").save("namesAndFavColors.avro")

Run Code Online (Sandbox Code Playgroud)

但是，我需要阅读流式Avro消息。库文档建议使用from_avro（）函数，该函数仅适用于Scala和Java。

是否有其他模块支持读取从Kafka流式传输的Avro消息？

python avro apache-kafka apache-spark pyspark

Pan*_*tas

lucky-day

4
推荐指数

1
解决办法

1393
查看次数