Snowflake SQL 编译器和执行有多懒?

Fel*_*ffa 3 sql testing optimization exception snowflake-cloud-data-platform

我可以依靠 Snowflake 的惰性评估来进行测试和异常抛出吗?

CTE 是否被延迟评估?

这有记录吗?

(相关问题:Snowflake 中的断言

Fel*_*ffa 5

我想分享一下我自己在这方面的实验。延迟评估对于优化目的非常有用,对于测试也非常有用。我找不到承诺这种行为的文档,因此这些实验有助于确定当前的行为

抛出测试异常

不会抛出这些潜在的除以 0 的异常:

select coalesce(1, 1/0), iff(true, 1, 1/0);
Run Code Online (Sandbox Code Playgroud)

这在编写 sql 脚本来验证结果时非常有用。例如,要验证查询是否返回 3 行或引发异常:

select iff(count(*)=3, 1, 1/0)
from (
    select * from values(1),(2),(3)
);
Run Code Online (Sandbox Code Playgroud)

CTE优化

让我们看看 Snowflake 是否优化了 CTE,或者无论如何都会对它们进行评估:

with oh_no as (
  select 1/0 oh_no
), fine as (
  select 1 fine
)

select *
from fine
;
Run Code Online (Sandbox Code Playgroud)

结果很好:CTE 不会抛出异常,因为不需要它而不会对其进行评估。

极度懒惰

这是一个有趣的:

with oh_no as (
  select 1/0 oh_no
), fine as (
  select 1 fine
)

select *
from (
    select * from fine
    union all 
    select * from oh_no
)
limit 1
;
Run Code Online (Sandbox Code Playgroud)

理论上,异常应该被抛出union。但 Snowflake 看到 已LIMIT 1被评估,并且不会浪费时间处理进一步的行。

这意味着相同的查询可能会抛出错误,具体取决于处理行的顺序,并且如果处理初始行数满足查询要求,则不会抛出错误。

但所有这些例子都是常数吗?

正如 @MatBailie 所指出的,所有这些示例都是恒定的,因此可以在执行之前对其进行优化。

让我添加这个示例来测试对实际表的查询结果:

select iff(count(*)=7, 1, 1/0)
from (
    select *
    from snowflake_sample_data.tpch_sf001.customer
    where c_phone like '18-8%'
);
Run Code Online (Sandbox Code Playgroud)

不会引发异常,因为表中正好有 7 条记录符合条件。好的。

对于极端懒惰的例子也是如此,使用实际数据:

with oh_no as (
    select 1/0 oh_no
), fine as (
    select c_custkey
    from snowflake_sample_data.tpch_sf001.customer
    where c_phone like '18-8%'
    limit 1
)

select *
from (
    select * from fine
    union all 
    select * from oh_no
)
limit 1
;
Run Code Online (Sandbox Code Playgroud)