SparkJob 文件名

Question

SparkJob 文件名

fir*_*eak 1 sql hql apache-spark pyspark hivecontext

我正在使用 HQL 查询，其中包含类似于...

INSERT OVERWRITE TABLE ex_tb.ex_orc_tb
select *, SUBSTR(INPUT__FILE__NAME,60,4), CONCAT_WS('-', SUBSTR(INPUT__FILE__NAME,71,4), SUBSTR(INPUT__FILE__NAME,75,2), SUBSTR(INPUT__FILE__NAME,77,2))
 from ex_db.ex_ext_tb

Run Code Online (Sandbox Code Playgroud)

当我进入 hive 并使用该命令时，它工作正常。

当我把它放入一个 pyspark, hivecontext 命令时，我得到了错误......

pyspark.sql.utils.AnalysisException: u"cannot resolve 'INPUT__FILE__NAME' given input columns: [list_name, name, day, link_params, id, template]; line 2 pos 17"

Run Code Online (Sandbox Code Playgroud)

任何想法为什么会这样？

Answer 1

zer*_*323 6

INPUT__FILE__NAME 是 Hive 特定的虚拟列，Spark 不支持它。

Spark 提供了input_file_name应该以类似方式工作的函数：

SELECT input_file_name() FROM df

Run Code Online (Sandbox Code Playgroud)

但它需要 Spark 2.0 或更高版本才能与 PySpark 正常工作。

归档时间：	8 年，9 月前
查看次数：	2056 次
最近记录：	8 年，9 月前