加速通配符文本查找

pun*_*ish 10 postgresql mongodb

我在Postgres有一个简单的表,有超过800万行.感兴趣的列包含短文本字符串,通常一个或多个单词的总长度小于100个字符.它设置为'字符变化(100)'.该列已编入索引.如下所示的简单查看需要> 3000 ms.

SELECT a, b, c FROM t WHERE a LIKE '?%'

Run Code Online (Sandbox Code Playgroud)

是的,目前,需要简单地找到"a"以输入文本开头的行.我希望将查看速度降低到100毫秒以下(瞬间出现).建议？在我看来,全文搜索在这里没有帮助,因为我的文本列太短,但我很乐意尝试,如果有价值.

哦,顺便说一下,我还在mongodb和索引列"a"中加载了完全相同的数据.在mongodb中加载数据非常快(mongodb ++).在进行精确查找时,mongodb和Postgres都非常快速.但是,Postgres实际上在上面进行尾随通配符搜索时会发光,持续时间大约是mongodb的1/3.我很乐意追求mongodb,如果我能加快速度,因为这只是一个只读操作.

更新:首先,几个EXPLAIN ANALYZE输出

EXPLAIN ANALYZE SELECT a, b, c FROM t WHERE a LIKE 'abcd%'

"Seq Scan on t  (cost=0.00..282075.55 rows=802 width=40) 
    (actual time=1220.132..1220.132 rows=0 loops=1)"
"  Filter: ((a)::text ~~ 'abcd%'::text)"
"Total runtime: 1220.153 ms"

Run Code Online (Sandbox Code Playgroud)

我实际上想要Lower(a)与搜索词进行比较,搜索词总是至少4个字符,所以

EXPLAIN ANALYZE SELECT a, b, c FROM t WHERE Lower(a) LIKE 'abcd%'

"Seq Scan on t  (cost=0.00..302680.04 rows=40612 width=40) 
    (actual time=4.681..3321.387 rows=788 loops=1)"
"  Filter: (lower((a)::text) ~~ 'abcd%'::text)"
"Total runtime: 3321.504 ms"

Run Code Online (Sandbox Code Playgroud)

所以我创建了一个索引

CREATE INDEX idx_t ON t USING btree (Lower(Substring(a, 1, 4) ));

"Seq Scan on t  (cost=0.00..302680.04 rows=40612 width=40) 
    (actual time=3243.841..3243.841 rows=0 loops=1)"
"  Filter: (lower((a)::text) = 'abcd%'::text)"
"Total runtime: 3243.860 ms"

Run Code Online (Sandbox Code Playgroud)

似乎唯一一次使用索引就是在寻找完全匹配的时候

EXPLAIN ANALYZE SELECT a, b, c FROM t WHERE a = 'abcd'

"Index Scan using idx_t on geonames  (cost=0.00..57.89 rows=13 width=40) 
    (actual time=40.831..40.923 rows=17 loops=1)"
"  Index Cond: ((ascii_name)::text = 'Abcd'::text)"
"Total runtime: 40.940 ms"

Run Code Online (Sandbox Code Playgroud)

发现通过实现与索引的解决方案varchar_pattern_ops,而我现在找一个更快的查找.

PostgreSQL查询规划器很聪明,但不是AI.要使它在表达式上使用索引,请在查询中使用完全相同的表达式.

使用这样的索引:

CREATE INDEX t_a_lower_idx ON t (lower(substring(a, 1, 4)));

Run Code Online (Sandbox Code Playgroud)

或者在PostgreSQL 9.1中更简单:

CREATE INDEX t_a_lower_idx ON t (lower(left(a, 4)));

Run Code Online (Sandbox Code Playgroud)

使用此查询:

SELECT * FROM t WHERE lower(left(a, 4)) = 'abcd';

Run Code Online (Sandbox Code Playgroud)

这100%在功能上等同于:

SELECT * FROM t WHERE lower(a) LIKE 'abcd%'

Run Code Online (Sandbox Code Playgroud)

要么:

SELECT * FROM t WHERE a ILIKE 'abcd%'

Run Code Online (Sandbox Code Playgroud)

但不是:

SELECT * FROM t WHERE a LIKE 'abcd%'

Run Code Online (Sandbox Code Playgroud)

这是一个功能不同的查询 ,您需要一个不同的索引:

CREATE INDEX t_a_idx ON t (substring(a, 1, 4));

Run Code Online (Sandbox Code Playgroud)

或者使用PostgreSQL 9.1更简单:

CREATE INDEX t_a_idx ON t (left(a, 4));

Run Code Online (Sandbox Code Playgroud)

并使用此查询:

SELECT * FROM t WHERE left(a, 4) = 'abcd';

Run Code Online (Sandbox Code Playgroud)

左锚定的可变长度搜索项

不区分大小写.指数:

编辑:几乎忘了:如果使用除默认"C"之外的任何其他语言环境运行数据库,则需要明确指定运算符类 - text_pattern_ops在我的示例中:

CREATE INDEX t_a_lower_idx
ON t (lower(left(a, <insert_max_length>)) text_pattern_ops);

Run Code Online (Sandbox Code Playgroud)

查询:

SELECT * FROM t WHERE lower(left(a, <insert_max_length>)) ~~ 'abcdef%';

Run Code Online (Sandbox Code Playgroud)

可以使用索引,并且几乎与具有固定长度的变体一样快.

您可能对dba.SE上的这篇文章感兴趣,其中包含有关模式匹配的更多详细信息,尤其是关于运算符~>=~和文本的最后一部分~<~.

归档时间：	13 年，12 月前
查看次数：	2858 次
最近记录：	13 年，11 月前

使用Mongo查询数组中对象中的字段？ 21

是否有可能在MongoDB数据库中的对象之间建立关系？ 12

Postgres Postgis错误:未加载库:/usr/local/lib/libspatialite.5.dylib 11

验证两个postgresql数据库之间的数据一致性 8

如何获得PostgreSQL中最顶级的父级 7

在 Diesel 中执行正确的联接 7

mongodb在文档更新期间使用if else设置字段值 6

是否可以将数据传递给 postgreSQL 触发器？ 6

在 Go 中使用 Gorm 返回一个数组 6

我的只读用户可以写 5

使用Git将特定文件重置或还原到特定版本？ 4255

为什么Android模拟器这么慢？我们如何加快Android模拟器的速度？ 3356

finally块总是在Java中执行吗？ 2281

在终端上打印颜色？ 1929

如何在MySQL中使用命令行导入SQL文件？ 1836

如何调试Node.js应用程序？ 1531

如何让ASP.NET Web API使用Chrome返回JSON而不是XML？ 1220

如何初始化静态地图？ 1084

如何使用$ scope.$ watch和$ scope.$在AngularJS中申请？ 1076

获取Oracle中所有表的列表？ 1073