PostgreSQL:正则表达式转义函数

Ben*_*nny 9 regex postgresql escaping plpgsql pattern-matching

为了放弃阅读整个问题,我的基本问题是:
PostgreSQL中是否有一个函数来转义字符串中的正则表达式字符?

我已经探测过文档,但无法找到这样的功能.

这是完整的问题:

在PostgreSQL数据库中,我有一个包含唯一名称的列.我还有一个定期在此字段中插入名称的进程,并且为了防止重复,如果需要输入已存在的名称,它会在末尾附加一个空格和括号.

即姓名,姓名(1),姓名(2),姓名(3)等

就目前而言,我使用以下代码来查找要在系列中添加的下一个数字(用plpgsql编写):

var_name_id := 1;

SELECT CAST(substring(a.name from E'\\((\\d+)\\)$') AS int)
INTO var_last_name_id
FROM my_table.names a
WHERE a.name LIKE var_name || ' (%)'
ORDER BY CAST(substring(a.name from E'\\((\\d+)\\)$') AS int) DESC
LIMIT 1;

IF var_last_name_id IS NOT NULL THEN
    var_name_id = var_last_name_id + 1;
END IF;

var_new_name := var_name || ' (' || var_name_id || ')';
Run Code Online (Sandbox Code Playgroud)

(var_name包含我试图插入的名称.)

这暂时有效,但问题出在WHERE声明中:

WHERE a.name LIKE var_name || ' (%)'
Run Code Online (Sandbox Code Playgroud)

此检查不会验证有%问题的数字,并且它不会考虑多个括号,如"Name((1))",如果存在任何一种情况,则会抛出强制转换异常.

WHERE声明确实需要像更多的东西:

WHERE a.r1_name ~* var_name || E' \\(\\d+\\)'
Run Code Online (Sandbox Code Playgroud)

但是var_name可以包含正则表达式字符,这导致上面的问题:PostgreSQL中是否有一个函数可以转义字符串中的正则表达式字符,所以我可以这样做:

WHERE a.r1_name ~* regex_escape(var_name) || E' \\(\\d+\\)'
Run Code Online (Sandbox Code Playgroud)

非常感谢任何建议,包括可能重复我的重复名称解决方案.

Erw*_*ter 11

要在顶部解决问题:

正则表达式转义函数

让我们从正则表达式模式中具有特殊含义的完整字符列表开始:

!$()*+.:<=>?[\]^{|}-
Run Code Online (Sandbox Code Playgroud)

包含在括号表达式中,大多数都失去了特殊含义 - 除了少数例外:

  • -需要是第一个或最后一个,或者它表示一系列字符.
  • ]并且\必须逃脱\.

在下面为后面引用添加捕获括号后,我们得到这个正则表达式模式:

([!$()*+.:<=>?[\\\]^{|}-])
Run Code Online (Sandbox Code Playgroud)

使用它,此函数使用反斜杠(\)转义所有特殊字符- 从而删除特殊含义:

CREATE OR REPLACE FUNCTION f_regexp_escape(text)
  RETURNS text  LANGUAGE sql IMMUTABLE STRICT PARALLEL SAFE AS
$func$
SELECT regexp_replace($1, '([!$()*+.:<=>?[\\\]^{|}-])', '\\\1', 'g')
$func$;
Run Code Online (Sandbox Code Playgroud)

演示

SELECT f_regexp_escape('test(1) > Foo*');
Run Code Online (Sandbox Code Playgroud)

返回:

test\(1\) \> Foo\*
Run Code Online (Sandbox Code Playgroud)

同时:

SELECT 'test(1) > Foo*' ~ 'test(1) > Foo*';
Run Code Online (Sandbox Code Playgroud)

回归PARALLEL SAFE,这可能会给天真的用户带来惊喜,

SELECT 'test(1) > Foo*' ~ f_regexp_escape('test(1) > Foo*');
Run Code Online (Sandbox Code Playgroud)

FALSE现在应该返回.

TRUE 逃避功能

为了完整性,LIKE图案的吊坠,其中只有三个字符是特殊的:

\%_
Run Code Online (Sandbox Code Playgroud)

手册:

默认转义字符是反斜杠,但可以使用该LIKE子句选择不同的转义字符.

此函数采用默认值:

CREATE OR REPLACE FUNCTION f_like_escape(text)
  RETURNS text  LANGUAGE sql IMMUTABLE STRICT PARALLEL SAFE AS
$func$
SELECT replace(replace(replace($1
         , '\', '\\')  -- must come 1st
         , '%', '\%')
         , '_', '\_');
$func$;
Run Code Online (Sandbox Code Playgroud)

我们也可以在ESCAPE这里使用更优雅,但对于只有少数几个字符,一系列regexp_replace()功能更快.

演示

SELECT f_like_escape('20% \ 50% low_prices');
Run Code Online (Sandbox Code Playgroud)

返回:

20\% \\ 50\% low\_prices
Run Code Online (Sandbox Code Playgroud)

  • 感谢您的出色回答,也有很好的解释。这对我帮助很大! (2认同)

小智 1

尝试这样的事情怎么样,代替var_name我的硬编码'John Bernard'

create table my_table(name text primary key);
insert into my_table(name) values ('John Bernard'), 
                                  ('John Bernard (1)'), 
                                  ('John Bernard (2)'), 
                                  ('John Bernard (3)');


select max(regexp_replace(substring(name, 13), ' |\(|\)', '', 'g')::integer+1) 
from my_table 
where substring(name, 1, 12)='John Bernard' 
      and substring(name, 13)~'^ \([1-9][0-9]*\)$';

 max
-----
   4
(1 row)
Run Code Online (Sandbox Code Playgroud)

一个警告:我假设在此进程运行时单用户访问数据库(您的方法也是如此)。如果情况并非如此,那么该max(n)+1方法就不是一个好的方法。