相关疑难解决方法(0)

Pyspark 2.4.0,使用读取流从kafka读取avro-Python

我正在尝试使用PySpark 2.4.0从Kafka读取avro消息。

spark-avro外部模块可以为读取avro文件提供以下解决方案:

df = spark.read.format("avro").load("examples/src/main/resources/users.avro") 
df.select("name", "favorite_color").write.format("avro").save("namesAndFavColors.avro")
Run Code Online (Sandbox Code Playgroud)

但是,我需要阅读流式Avro消息。库文档建议使用from_avro()函数,该函数仅适用于Scala和Java。

是否有其他模块支持读取从Kafka流式传输的Avro消息?

python avro apache-kafka apache-spark pyspark

4
推荐指数
1
解决办法
1393
查看次数

安装spark-avro

我正在尝试在pyspark中读取avro文件.从如何阅读PySpark中的Avro文件中发现,spark-avro是最好的方法,但是我无法弄清楚如何从他们的Github repo中安装它.没有可下载的jar,我自己构建它吗?怎么样?

它是在群集上运行的Spark 1.6(pyspark).我没有设置它所以不太了解配置,但我有sudo访问权限所以我想我应该能够安装东西.但该机器没有直接的互联网访问权限,因此需要手动复制和安装内容.

谢谢.

pyspark spark-avro

2
推荐指数
1
解决办法
4039
查看次数

标签 统计

pyspark ×2

apache-kafka ×1

apache-spark ×1

avro ×1

python ×1

spark-avro ×1