使用 NOT IN 会降低性能

Question

使用 NOT IN 会降低性能

我正在尝试进行查询，以获取每年的演员阵容全部不是男性的电影数量（每年，计算当年没有男性的电影数量）。

这些是表格：

ACTOR (id, fname, lname, gender)
MOVIE (id, name, year)
CASTS (pid, mid, role)  -- pid refers to actor id, mid refers to movie id

Run Code Online (Sandbox Code Playgroud)

这就是我索引的内容（id因为表是主键，所以它们已经被索引，或者我假设是这样）：

CREATE INDEX gender_index on actor(gender);
CREATE INDEX movie_name_index on movie(name);
CREATE INDEX movie_year_index on movie(year);
CREATE INDEX casts_index on casts(pid, mid, role);
CREATE INDEX casts_pid_index on casts(pid);
CREATE INDEX casts_mid_index on casts(mid);
CREATE INDEX casts_role_index on casts(role);

Run Code Online (Sandbox Code Playgroud)

这是我的查询：

SELECT m.year, count(m.id)
FROM movie as m
WHERE m.id NOT IN (
    SELECT DISTINCT m.id
    FROM movie as m, casts as c, actor as a
    WHERE m.id = c.mid and a.id = c.pid and a.gender = 'M'
)
GROUP BY m.year
ORDER BY m.year

Run Code Online (Sandbox Code Playgroud)

查询需要永远（并且永远不会完成），那么我怎样才能使它更快呢？NOT EXISTS尽管我认为优化器可以解决这个问题，但使用有帮助吗？我还需要索引其他内容吗？还有其他更好的查询吗？如果这有什么区别的话，我正在使用 PostgreSQL。

这里是EXPLAIN：

"GroupAggregate  (cost=1512539.61..171886457832.52 rows=61 width=8)"
"  Group Key: m.year"
"  ->  Index Scan using movie_year_index on movie m  (cost=1512539.61..171886453988.38 rows=768706 width=8)"
"        Filter: (NOT (SubPlan 1))"
"        SubPlan 1"
"          ->  Materialize  (cost=1512539.18..1732298.66 rows=1537411 width=4)"
"                ->  Unique  (cost=1512539.18..1718605.60 rows=1537411 width=4)"
"                      ->  Merge Join  (cost=1512539.18..1700559.32 rows=7218511 width=4)"
"                            Merge Cond: (m_1.id = c.mid)"
"                            ->  Index Only Scan using movie_pkey on movie m_1  (cost=0.43..57863.94 rows=1537411 width=4)"
"                            ->  Materialize  (cost=1512531.37..1548623.92 rows=7218511 width=4)"
"                                  ->  Sort  (cost=1512531.37..1530577.65 rows=7218511 width=4)"
"                                        Sort Key: c.mid"
"                                        ->  Hash Join  (cost=54546.59..492838.95 rows=7218511 width=4)"
"                                              Hash Cond: (c.pid = a.id)"
"                                              ->  Seq Scan on casts c  (cost=0.00..186246.43 rows=11445843 width=8)"
"                                              ->  Hash  (cost=35248.91..35248.91 rows=1176214 width=4)"
"                                                    ->  Seq Scan on actor a  (cost=0.00..35248.91 rows=1176214 width=4)"
"                                                          Filter: ((gender)::text = 'M'::text)"

Run Code Online (Sandbox Code Playgroud)

Answer 1

Luc*_*c M 4

我会尝试

SELECT m.year, count(m.id)
FROM movie m
WHERE NOT EXISTS (
    SELECT NULL
    FROM casts c, actor a
    WHERE m.id = c.mid and a.id = c.pid and a.gender = 'M'
)
GROUP BY m.year
ORDER BY m.year

Run Code Online (Sandbox Code Playgroud)

为什么“NOT EXISTS”比“NOT IN”效果更好？查询优化器不应该优化两者并使它们没有区别吗？ (3认同)

归档时间：	9 年前
查看次数：	12175 次
最近记录：	5 年，7 月前