我正在尝试在pyspark中读取avro文件.从如何阅读PySpark中的Avro文件中发现,spark-avro是最好的方法,但是我无法弄清楚如何从他们的Github repo中安装它.没有可下载的jar,我自己构建它吗?怎么样?
它是在群集上运行的Spark 1.6(pyspark).我没有设置它所以不太了解配置,但我有sudo访问权限所以我想我应该能够安装东西.但该机器没有直接的互联网访问权限,因此需要手动复制和安装内容.
谢谢.
pyspark spark-avro
pyspark ×1
spark-avro ×1