T-SQL中的SQL Server正则表达式

xna*_*gyg 122 regex t-sql sql-server

是否有为SQL Server 编写的SP(不PATINDEX,没有扩展LIKE,纯xp_)的正则表达式库?

(应该与共享主机一起使用)

编辑:

  • 谢谢我知道sps,SPxp_ PATINDEXCLR`解决方案

  • 我也知道它不是最好的地方LIKE,问题是理论:)

  • 功能减少也被接受

Eri*_*ard 76

如何在PATINDEX函数?

TSQL中的模式匹配不是一个完整的正则表达式库,但它为您提供了基础知识.

(来自联机丛书)

Wildcard  Meaning  
% Any string of zero or more characters.

_ Any single character.

[ ] Any single character within the specified range 
    (for example, [a-f]) or set (for example, [abcdef]).

[^] Any single character not within the specified range 
    (for example, [^a - f]) or set (for example, [^abcdef]).
Run Code Online (Sandbox Code Playgroud)

  • 至少十年(SQL Server 2005+),`LIKE`支持`PATINDEX`所做的一切.之前不知道...... (6认同)
  • 然而,这并不能让我指定一个匹配的模式,比如说,匹配可变数量的 ascii 字母。`%` 匹配 0 个或多个字符(无论如何),`[...]` 只匹配 1 个字符,中间没有任何字符。 (3认同)

小智 18

如果有人有兴趣使用正则表达式与CLR这里是一个解决方案.如果模式匹配,则下面的函数(C#.net 4.5)返回1,如果模式不匹配则返回0.我用它来标记子查询中的行.SQLfunction属性告诉sql server此方法是SQL服务器将使用的实际UDF.将文件另存为dll,您可以从管理工作室访问该文件.

// default using statements above
using System.Data.SqlClient;
using System.Data.SqlTypes;
using Microsoft.SqlServer.Server;
using System.Text.RegularExpressions;

namespace CLR_Functions
{   
    public class myFunctions
    {
        [SqlFunction]
        public static SqlInt16 RegexContain(SqlString text, SqlString pattern)
        {            
            SqlInt16 returnVal = 0;
            try
            {
                string myText = text.ToString();
                string myPattern = pattern.ToString();
                MatchCollection mc = Regex.Matches(myText, myPattern);
                if (mc.Count > 0)
                {
                    returnVal = 1;
                }
            }
            catch
            {
                returnVal = 0;
            }

            return returnVal;
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

在管理工作室中,通过可编程性 - 程序集 - 新程序集导入dll文件

然后运行此查询:

CREATE FUNCTION RegexContain(@text NVARCHAR(50), @pattern NVARCHAR(50))
RETURNS smallint 
AS
EXTERNAL NAME CLR_Functions.[CLR_Functions.myFunctions].RegexContain
Run Code Online (Sandbox Code Playgroud)

然后,您应该通过存储程序集的数据库完全访问该功能.

然后在如下的查询中使用:

SELECT * 
FROM 
(
    SELECT
        DailyLog.Date,
        DailyLog.Researcher,
        DailyLog.team,
        DailyLog.field,
        DailyLog.EntityID,
        DailyLog.[From],
        DailyLog.[To],
        dbo.RegexContain(Researcher, '[\p{L}\s]+') as 'is null values'
    FROM [DailyOps].[dbo].[DailyLog]
) AS a
WHERE a.[is null values] = 0
Run Code Online (Sandbox Code Playgroud)


Ste*_*ski 14

通过使用LIKE可以获得一些基本模式匹配,其中%匹配任何数字和字符组合,_匹配任何一个字符,[abc]可以匹配a,b或c ... MSDN网站上有更多信息.


Joh*_*her 6

如果其他人仍在关注这个问题,http://www.sqlsharp.com/是一种免费、简单的方法,可以将正则表达式CLR 函数添加到数据库中。

  • @DaveBoltman:他在 2008 年提出了这个问题。人们有时会搜索这个问题并遇到这个问题,但不想避开 CLR。这对我有帮助,也可能对他们有帮助。 (13认同)
  • 再说一遍,我不是一个 CLR 解决方案 - 不是 OP 所要求的 (4认同)
  • @DaveBoltman:您错过了“人们有时会搜索此问题并遇到此问题而不希望避免 CLR”的部分。这是关键点。 (2认同)

Dav*_*son 5

如果您使用的是 SQL Server 2016 或更高版本,则可以sp_execute_external_script与 R 一起使用。它具有用于正则表达式搜索的功能,例如grepgrepl

这是电子邮件地址的示例。我将通过 SQL Server 数据库引擎查询一些“人”,将这些人的数据传递给 R,让 R 决定哪些人的电子邮件地址无效,然后让 R 将该人的子集传回 SQL Server。“人”来自示例数据库中的[Application].[People][WideWorldImporters]。它们作为名为InputDataSet. R 使用带有“not”运算符(感叹号!)的 grepl 函数来查找哪些人的电子邮件地址与 RegEx 字符串搜索模式不匹配。

EXEC sp_execute_external_script 
 @language = N'R',
 @script = N' RegexWithR <- InputDataSet;
OutputDataSet <- RegexWithR[!grepl("([_a-z0-9-]+(\\.[_a-z0-9-]+)*@[a-z0-9-]+(\\.[a-z0-9-]+)*(\\.[a-z]{2,4}))", RegexWithR$EmailAddress), ];',
 @input_data_1 = N'SELECT PersonID, FullName, EmailAddress FROM Application.People'
 WITH RESULT SETS (([PersonID] INT, [FullName] NVARCHAR(50), [EmailAddress] NVARCHAR(256)))
Run Code Online (Sandbox Code Playgroud)

请注意,必须在 SQL Server 主机上安装适当的功能。对于 SQL Server 2016,它被称为“SQL Server R 服务”。对于 SQL Server 2017,它被重命名为“SQL Server 机器学习服务”。

结束语 Microsoft 的 SQL (T-SQL) 实现没有对 RegEx 的本机支持。这个提议的解决方案可能并不比使用 CLR 存储过程更适合 OP。但它确实提供了另一种解决问题的方法。