我正在尝试使用PySpark 2.4.0从Kafka读取avro消息。
spark-avro外部模块可以为读取avro文件提供以下解决方案:
df = spark.read.format("avro").load("examples/src/main/resources/users.avro") 
df.select("name", "favorite_color").write.format("avro").save("namesAndFavColors.avro")
但是,我需要阅读流式Avro消息。库文档建议使用from_avro()函数,该函数仅适用于Scala和Java。
是否有其他模块支持读取从Kafka流式传输的Avro消息?
我正在尝试在pyspark中读取avro文件.从如何阅读PySpark中的Avro文件中发现,spark-avro是最好的方法,但是我无法弄清楚如何从他们的Github repo中安装它.没有可下载的jar,我自己构建它吗?怎么样?
它是在群集上运行的Spark 1.6(pyspark).我没有设置它所以不太了解配置,但我有sudo访问权限所以我想我应该能够安装东西.但该机器没有直接的互联网访问权限,因此需要手动复制和安装内容.
谢谢.