"相关标量子查询必须聚合"是什么意思？

Question

"相关标量子查询必须聚合"是什么意思？

Kal*_*yan 7 apache-spark apache-spark-sql pyspark-sql

我使用Spark 2.0.

我想执行以下SQL查询:

val sqlText = """
select
  f.ID as TID,
  f.BldgID as TBldgID,
  f.LeaseID as TLeaseID,
  f.Period as TPeriod,
  coalesce(
    (select
       f ChargeAmt
     from
       Fact_CMCharges f
     where
       f.BldgID = Fact_CMCharges.BldgID
     limit 1),
     0) as TChargeAmt1,
  f.ChargeAmt as TChargeAmt2,
  l.EFFDATE as TBreakDate
from
  Fact_CMCharges f
join
  CMRECC l on l.BLDGID = f.BldgID and l.LEASID = f.LeaseID and l.INCCAT = f.IncomeCat and date_format(l.EFFDATE,'D')<>1 and f.Period=EFFDateInt(l.EFFDATE) 
where
  f.ActualProjected = 'Lease'
except(
  select * from TT1 t2 left semi join Fact_CMCharges f2 on t2.TID=f2.ID) 
"""
val query = spark.sql(sqlText)
query.show()

Run Code Online (Sandbox Code Playgroud)

内部语句似乎coalesce给出了以下错误:

pyspark.sql.utils.AnalysisException: u'Correlated scalar subqueries must be Aggregated: GlobalLimit 1\n+- LocalLimit 1\n

Run Code Online (Sandbox Code Playgroud)

查询有什么问题？

Answer 1

Rom*_*ler 6

您必须确保按定义（而不是按数据）的子查询仅返回一行。否则，Spark Analyzer会在分析SQL语句时抱怨。

因此，当催化剂无法仅通过查看SQL语句（而不查看数据）来确保100％确定子查询仅返回单行时，将引发此异常。

如果确定子查询仅给出一行，则可以使用以下聚合标准函数之一，因此Spark Analyzer很高兴：

first
avg
max
min

在SQL中大小写并不重要，在python中需要小写https://gist.github.com/romeokienzler/bfebc1c84dd2846d5b36f1182608fb9e (2认同)

归档时间：	9 年，2 月前
查看次数：	1990 次
最近记录：	7 年，7 月前