标点符号是否有 T-SQL 等价物,因为 [0-9] 用于数字而 [az] 用于字母?

pix*_*985 8 sql-server regular-expression t-sql sql-server-2012

是否有与[0-9][a-z]模式等效的 T-SQL可以让我从包含标点符号的列中提取值?

例如:

Create Table #Test
(
Value   VarChar(10)
) 
Insert Into #Test
Values ('123a'), ('456b'), ('12ABC'),('AB!23'),('C?D789')

Select      *
From        #Test
Where       Value like '[0-9][0-9][0-9][a-z]'
Run Code Online (Sandbox Code Playgroud)

这将返回值,其中前 3 个字符是 0 到 9 之间的数字,最后一个字符将是 a 和 z 之间的字母,因此会返回类似123a456b但不会返回值12ABC.

我想知道标点符号[0-9]是否与数字和[a-z]字母等价,以便它返回AB!23C?D789

如果我可以使用正则表达式,我可能会使用该表达式^[a-zA-Z0-9]*$来匹配字符串中的字母数字字符。

Where       Value like '^[a-zA-Z0-9]*$'
Run Code Online (Sandbox Code Playgroud)

是否有与此等效的 SQL?

我知道这种事情可以在 RegEx 中完成,但我需要在 T-SQL 中完成,我无法将任何自定义程序集加载到此服务器上,因此无法使用正则表达式。

真正的列是varchar(200)。归类是 Latin1_General_CI_AS。我使用的是 SQL Server 2012 标准版。

Sol*_*zky 12

在未来到精确的溶液中的最大的困难是在限定恰好字符是什么要被包括(或排除,取其方向更有意义的操作)。意义:

  • 我们是在谈论VARCHAR/ ASCII 数据还是NVARCHAR/ Unicode 数据?ASCII 数据的标点符号列表取决于代码页,而代码页又取决于排序规则。(在这个问题中,我们正在处理 ASCII 数据)。
  • 我们处理的是区分大小写还是不区分大小写的搜索?
  • 列设置为什么排序规则?排序规则将告诉我们代码页和区分大小写。(在这个问题中,我们正在处理Latin1_General_CI_AS
  • 是术语“标点符号”的意思只是标准的标点字符(例如.,;:,等),或者这是否意味着非字母数字字符?
  • 是否包括空格字符?
  • 是否包括控制字符?
  • 什么货币符号,如¢£¥,等?
  • 诸如©和 之类的符号呢?
  • 哪些字符被认为是“alpha”?是否包含非英文字符,例如Â, É, Ñ, ß, Þ
  • 由于此问题涉及英国键盘(请参阅此问题的讨论),那么Æ/æ字符呢?

为了帮助明确预期行为,以下查询将显示 Latin1 字符集(即代码页 1252)的所有 256 个字符以及@Shaneis提出的解决方案的两种变体如何运作。第一个字段(标记为Latin1_General_CI_AS)显示了LIKE@Shaneis(在撰写本文时)提出的子句,第二个字段(标记为Latin1_General_100_BIN2)显示了一个修改,其中我覆盖了排序规则以指定一个二进制文件(即以 结尾的排序规则_BIN2_BIN不推荐使用排序规则,因此如果您可以访问_BIN2版本,请不要使用它们)这意味着我还需要添加A-Z范围以过滤掉大写字母,因为当前排序规则不区分大小写:

;WITH nums AS
(
  SELECT TOP (256) (ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) - 1) AS [Decimal]
  FROM   [master].[sys].[all_objects]
)
SELECT nm.[Decimal],
       CHAR(nm.[Decimal]) AS [Character],
       CASE WHEN CHAR(nm.[Decimal]) LIKE '%[^a-z0-9]%'
               THEN 'x' ELSE '' END AS [Latin1_General_CI_AS],
       CASE WHEN CHAR(nm.[Decimal]) LIKE '%[^a-z0-9A-Z]%' COLLATE Latin1_General_100_BIN2
               THEN 'x' ELSE '' END AS [Latin1_General_100_BIN2]
FROM   nums nm;
Run Code Online (Sandbox Code Playgroud)

更新

应该提到的是,IF是真正寻求查找被归类为“标点符号”(而不是“货币符号”、“数学符号”等)的字符,并且IF没有被禁止使用 SQLCLR/加载自定义程序集(SQLCLR 是在 SQL Server 2005 中引入的,我还没有遇到不允许它的充分理由,尤其是因为 Azure SQL 数据库 V12 支持程序集SAFE),那么您可以使用正则表达式,但不是因为大多数人会猜。

\w您可以指定要过滤的字符的 Unicode 类别,而不是使用正则表达式来构建更实用的字符范围,或者甚至不使用类似的东西(意思是任何“单词”字符),并且有几个定义的类别:

https://www.regular-expressions.info/unicode.html#category

您甚至可以指定要过滤的 Unicode 块,例如“InBengali”或“InDingbats”或“InOptical_Character_Recognition”等:

https://www.regular-expressions.info/unicode.html#block

有许多为 SQL Server 创建 RegEx 函数的示例(尽管大多数示例不遵循 SQLCLR 最佳实践),或者您可以下载SQL#库的免费版本(我创建的),并使用标量RegEx_IsMatch函数如下:

SQL#.RegEx_IsMatch(Unicode-String-Expression, N'\p{P}', 1, NULL)
Run Code Online (Sandbox Code Playgroud)

\p{P}表达式表示\p= Unicode 类别,并且{P}= 所有标点符号(与特定类型的标点符号相反,例如“连接器标点符号”)。而且,“标点符号”类别包括所有语言的所有标点符号!您可以通过以下链接在 Unicode.org 站点上查看完整列表(该类别中目前有 717 个代码点):

http://unicode.org/cldr/utility/list-unicodeset.jsp?a=%5B%3AGeneral_Category%3DPunctuation%3A%5D

测试查询的更新版本如上图所示,包括使用另一场SQL#.RegEx_IsMatch\p{P},和跨代码页1252(即Latin1_General)的所有256个字符的所有3次测试的结果已在被张贴在PasteBin.com:

用于过滤字符类型的 T-SQL 查询和结果


更新
相关讨论中提到了以下内容:

您对重音字符提出了一个很好的观点,因为它们是来自世界各地的酒店名称,名称中会有重音字符,对于我的问题,我想将它们归类为有效的字母字符。

在这种情况下:

  1. Latin1 字符集/代码页中包含 11 个非英语字符,这些字符与a-z范围不匹配。他们是:ð Ð Þ þ œ Œ š Š ž Ž Ÿ。这些需要添加到通配符中,虽然目前不是必需的,但添加不会有什么坏处,A-Z这样模式在区分大小写的排序规则上也能正常工作。最终结果是:
    LIKE '%[^a-zA-Z0-9ðÐÞþœŒšŠžŽŸ]%'

  2. 考虑到此数据可能包含“来自世界各地的酒店名称”,我强烈建议更改列的数据类型,NVARCHAR以便您可以存储所有语言的所有字符。保持这种状态会VARCHAR导致最终丢失数据的风险非常高,因为您只能表示基于拉丁语的语言,甚至不能完全表示那些提供额外拉丁相关字符的六个补充 Unicode 类别。


Sha*_*eis 5

我可能会过度简化这一点,但是,如果我们说删除字母数字值时只剩下标点符号,那么以下将搜索其中包含非字母数字字符的字符串。

Create Table #Test
(
Value   VarChar(10)
) 
Insert Into #Test
Values ('123a'), ('456b'), ('12ABC'),('AB!23'),('C?D789')

-- Original
Select      *
From        #Test
Where       Value like '[0-9][0-9][0-9][a-z]'

-- Non Alpha-numeric
SELECT * FROM #Test WHERE Value LIKE '%[^a-z0-9]%';

DROP TABLE #Test;
Run Code Online (Sandbox Code Playgroud)