Apache Avro 作为 Apache Spark 2.4 中的内置数据源

Ach*_*eus 12 apache-spark

我最近读了这篇文章并尝试了这个例子,但是当我运行时

val usersDF = spark.read.format("avro")
                        .load("examples/src/main/resources/users.avro")
Run Code Online (Sandbox Code Playgroud)

但是当我尝试运行它时,这给了我一个错误。

线程“main”org.apache.spark.sql.AnalysisException 中出现异常:无法找到数据源:avro。从 Spark 2.4 开始,Avro 是内置但外部的数据源模块。请按照“Apache Avro 数据源指南”的部署部分部署应用程序。在 org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:647)

Ach*_*eus 7

在阅读Apache Avro 数据源指南后,我认为 build.sbt 需要使用新的依赖项进行更新。

val sparkVersion = "2.4.0"
"org.apache.spark" %% "spark-avro" % sparkVersion
Run Code Online (Sandbox Code Playgroud)

此后一切正常。