cod*_*gle 0 sql db2 scala apache-spark parquet
我正在尝试使用 Apache Spark 将具有多个联接和子选择的(大型)SQL 查询的结果加载到 Spark 的 DataFrame 中,如从SQL 查询创建 Spark Dataframe中所述。
不幸的是,我尝试这样做会导致 Parquet 出现错误:
线程“main”org.apache.spark.sql.AnalysisException 中出现异常:无法推断 Parquet 的架构。必须手动指定。
我从谷歌看到的信息暗示当 DataFrame 为空时会发生此错误。但是,查询结果会在 DBeaver 中加载大量行。
这是一个示例查询:
(SELECT REPORT_DATE, JOB_CODE, DEPT_NBR, QTY
FROM DBO.TEMP
WHERE BUSINESS_DATE = '2019-06-18'
AND STORE_NBR IN (999)
ORDER BY BUSINESS_DATE) as reports
Run Code Online (Sandbox Code Playgroud)
我的 Spark 代码如下所示。
val reportsDataFrame = spark
.read
.option("url", db2JdbcUrl)
.option("dbtable", queries.reports)
.load()
scheduledHoursDf.show(10)
Run Code Online (Sandbox Code Playgroud)
我在之前的答案中读到,可以使用此方法对整个数据库运行查询。特别是,如果您在第一次在 Spark 中构建 DataFrame 时将“dbtable”参数指定为别名查询。您可以看到我已经在查询中通过将整个查询指定为“as reports”别名来完成此操作。
我不认为这是一个重复的问题。我已经广泛研究了这个具体问题,但没有发现有人在网上面临同样的问题。特别是,运行查询导致的 Parquet 错误。
似乎一致认为不应该以这种方式运行 SQL 查询,而应该使用 Spark 的 DataFrames 的许多方法来过滤、分组和聚合数据。然而,如果能够使用原始 SQL,即使会带来性能损失,对我们来说也是非常有价值的。
快速查看你的代码告诉我你失踪了.format("jdbc")
val reportsDataFrame = spark
.read
.format("jdbc")
.option("url", db2JdbcUrl)
.option("dbtable", queries.reports)
.load()
Run Code Online (Sandbox Code Playgroud)
如果您设置了连接数据库的用户名和密码,这应该可以工作。
了解更多有关 Spark 中 JDBC 源的好资源(https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html)