可变二进制模式搜索

Pet*_*ter 2 sql-server varbinary

我正在尝试进行一个遍历 varbinary 数据的查询。问题是我无法真正完成我想要实现的目标。关于该列,您应该了解的是 varbinary(50) ,并且出现的模式没有特定的书写顺序,这意味着每个前缀可以是任何位置,只要它有 3 个字节(0x000000) 第一个字节是前缀,第二个和第三个是值数据我想检查它是否在我喜欢的范围内。所有的数据都是这样写的。

我尝试过的:

DECLARE @t TABLE (
    val VARBINARY(MAX)
)

INSERT INTO @t SELECT 0x00000100000000000000000000000000000000000000000000000000
INSERT INTO @t SELECT 0x00001000000000000000000000000000000000000000000000000000
INSERT INTO @t SELECT 0x00010000000000000000000000000000000000000000000000000000
INSERT INTO @t SELECT 0x00100000000000000000000000000000000000000000000000000000
INSERT INTO @t SELECT 0x00000f00000000000000000000000000000000000000000000000000

declare @pattern varbinary(max)
declare @pattern2 varbinary(max)
set @pattern = 0x0001
set @pattern2 = @pattern+0xFF

select @pattern,@pattern2

SELECT
    *
FROM @t
WHERE val<@pattern
OR val>@pattern2
Run Code Online (Sandbox Code Playgroud)

这是完全失败的,如果我使用 4 个符号作为图案,图案最多可以精确到 2 个符号,只有当图案位于预定义位置时,它才会起作用。我已经尝试过这个和下面所有内容的组合。

WHERE CONVERT(varbinary(2), val) = 0xdata
Run Code Online (Sandbox Code Playgroud)

还有这个:

select * 
from table
where CONVERT(varchar(max),val,2) like '%data%'
Run Code Online (Sandbox Code Playgroud)

这对于搜索精确模式非常有用,但不适用于范围,我需要两者的某种组合。

我需要一些可以自行检测到这一点的东西,而我只是指定一个起点和终点来查看之间的情况,就像最大的数字变化是“26ffff”,但将其限制为“ff00”之类的东西对于我来说是可以接受的寻找。

我最好的猜测是 2 个定义的数字,1 是允许的最大范围,2 是上限,所以它不会经历所有可能的结果。但我会很高兴任何有效的事情。

数据来源与存储数据的游戏服务器有关。有预定义的前缀,它们是统计数据类型,其余数据是统计数据的实际数值。数据由6个字符的数据间隔表示。这是数据流的示例。只要有空间记录数据,它总是 6-6-6-6-6,因为它的上限为 50 个字符。 0x0329000414000B14000C14000D0F00177800224600467800473C00550F00000000000000000000000000

这些组始终采用 3 字节方式,我的想法是使用第一个字节来缩小搜索范围,然后使用第二个 2 字节来过滤它。我只是不知道如何以有效的方式实现这一目标。如果违反 3 字节模式,数据将变得不可读,这意味着即使您不需要额外的字节,您仍然必须对其进行计数,否则数据会破坏工作数据的示例。

0x032900'041400'
Run Code Online (Sandbox Code Playgroud)

损坏数据的示例:

 0x0329'041400'
Run Code Online (Sandbox Code Playgroud)

我能想到的唯一问题是当前缀和部分值都是真实示例时:

0x262600
Run Code Online (Sandbox Code Playgroud)

除非查询被专门命令以 3 字节顺序读取数据,这意味着它知道第一个字节始终是前缀,其他 2 个字节是值。

问:是否可以将其用作对齐指示符,以便至少 3 个零字节之后的第一个非零字节指示组的开始?

答:是的,但这不太可能是我的意思,尽管可能会按如下顺序编写:

0x260000'270000'
Run Code Online (Sandbox Code Playgroud)

它不会向前跳过没有数据的整个 3 字节组。如果有人手动将其插入数据库,就会发生这种类型的条目,据我所知,服务器不会创建带有间隙的记录:

0x260000'000000'270000'
Run Code Online (Sandbox Code Playgroud)

作为工作查询,最接近我期望的结果是这个,但这很糟糕,它适用于小范围,但任何更大的范围都会很乏味。

select * from @t 
where (CONVERT(varchar(max),val,2) like '%262100%' or 
CONVERT(varchar(max),attr,2) like '%262200%' or 
etc...)
Run Code Online (Sandbox Code Playgroud)

目标:

  1. 定位前缀(第一个二进制数据对)
  2. 在前缀后定义最大值,高于该阈值的所有内容都会在结果中列出。假设“26”是前缀,后面允许的最大数字是“9600”或“269600”。基本上,任何超过此模式“269600”的数据都应该被检测到,例如“269700”。或查询结果将发布此:

select * from table where CONVERT(varchar(max),attr,2) like '%269700%'


我正在尝试获取一个可以循环访问表中的 varbinary 数据的查询,该表在设置的参数示例中搜索特定结果:

0x263700,数据分为 3 字节段,1 字节是将用于搜索模式的标头,其他 2 字节是我必须检查其是否在设定范围内的值,例如:“3700”以上的所有内容(+ 1 位差异)二进制值,直到“FFFF”将被分类为结果,或者最大可能的结果将是“26FFFF”。这并不是针对特定的数据流进行一一循环。

Mar*_*ith 5

最简单的方法可能是将值分成三个字节块并单独查看每个块。

由于最大长度仅为 50 并且您似乎不想查看三字节滑动窗口,因此可以将边界值硬编码到查询中(否则您可以创建一个包含序列号的表或使用它来避免这种GENERATE_SERIES情况)

下面使用 join 返回匹配的三元组值,并且-如果您只需要匹配的行并且在同一二进制值的多个部分匹配的情况下不希望出现多个行,id您可能更愿意更改为 a 。WHERE EXISTS

DECLARE @YourTable table
(
Id INT PRIMARY KEY,
Val VARBINARY(50)
)

INSERT @YourTable
VALUES (1, 0x0329000414000B14000C14000D0F00177800224600467800473C00550F00000000000000000000000000),
       (2, 0x0329002637000B14000C14000D0F00177800224600467800473C00550F00000000000000000000000000);


SELECT Id, Triplet
FROM @YourTable T
JOIN (VALUES (1),(4),(7),(10),(13),(16),(19),(22),(25),(28),(31),(34),(37),(40),(43),(46),(49)) Nums(Num) ON Num <= DATALENGTH(T.Val)
CROSS APPLY (VALUES (SUBSTRING(T.Val, Num, 3))) V(Triplet)
WHERE Triplet BETWEEN 0x263700 AND 0x2637FF
Run Code Online (Sandbox Code Playgroud)

您还应该检查上面的方法是否可以按照您想要的方式工作,即二进制长度不能被三整除并且最后一个段短于三个字节(也许您还需要一个DATALENGTH(Triplet) = 3谓词?)。