SQL Server CONTAINSTABLE 不适用于个位数

Cod*_*shi 2 sql sql-server full-text-search

这个问题是关于SQL Server 的 FTS ContainsTable

为了重现这个问题,我们可以使用下面的脚本来创建一个表并用地址填充它。

CREATE TABLE Address (FullAddress nvarchar(100) NOT NULL);  
CREATE UNIQUE CLUSTERED INDEX AddressKey ON Address(FullAddress);  
INSERT INTO Address VALUES ('1 OLD YONGE ST, AURORA, ON');  
INSERT INTO Address VALUES ('1 OLD YONGE ST, NORTH YORK, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 1, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 10, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('18 YONGE ST UNIT 324, TORONTO, ON');
INSERT INTO Address VALUES ('10415 YONGE ST UNIT 1, RICHMOND HILL, ON');
INSERT INTO Address VALUES ('11211 YONGE ST UNIT 37 BUILDING A, RICHMOND HILL, ON');
Run Code Online (Sandbox Code Playgroud)

现在我们将创建全文目录并在其上创建索引。

CREATE FULLTEXT CATALOG AddressCat;  
CREATE FULLTEXT INDEX ON Address(FullAddress) KEY INDEX AddressKey ON AddressCat; 
Run Code Online (Sandbox Code Playgroud)

问题

如果我们运行查询并搜索以1开头的地址(注意这是一个数字)并且1NEAR下一个术语Yong,我们希望它返回上面的所有前 4 条记录。这是查询:

SELECT * FROM CONTAINSTABLE (Address, FullAddress, '"1" NEAR "Yon*"') ORDER BY RANK DESC;
Run Code Online (Sandbox Code Playgroud)

但是,它不返回任何行。这是问题。

但是如果我们执行一个带有两位数的查询,比如1110,那么它会按预期返回记录。

题:

为什么ContainsTable不返回单位数搜索的任何结果?

Cod*_*shi 6

查找问题的原因

我尝试了很多事情,例如将查询更改为:

SELECT * FROM CONTAINSTABLE (Address, FullAddress, 'NEAR((1, YONGE), 5, TRUE)') 
-- or this
SELECT * FROM CONTAINSTABLE (Address, FullAddress, '1 YON*')
Run Code Online (Sandbox Code Playgroud)

但没有任何运气。

在网上搜索了一些之后,我开始思考(因为这个问题只发生在个位数上)它可能与停用词有关

停用词。停用词可以是在特定语言中具有含义的词。例如,在英语中,诸如“a”、“and”、“is”和“the”之类的词被排除在全文索引之外,因为它们对于搜索是无用的。停用词也可以是没有语言意义的标记。

然后在这个SO Answer的帮助下,我能够弄清楚 SQL Server 如何解释我的搜索。这是查询和查询结果:

select * from sys.dm_fts_parser('"1" NEAR "Yon*"',2057, 0, 0)
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

请注意如何将搜索词1视为Noise。这就是问题所在。然后运行这个查询帮助我找到了所有的干扰词,果然数字0-9都在那里:

SELECT ssw.*, ssw.stopword, slg.name
      FROM sys.fulltext_system_stopwords ssw
      JOIN sys.fulltext_languages slg
      ON slg.lcid = ssw.language_id
      WHERE slg.lcid = 1033 -- English
Run Code Online (Sandbox Code Playgroud)

解决方案

一种解决方案是从干扰词中去除个位数。但我找不到如何做到这一点。实际上,在我的情况下无论如何都不会想到,因为我的系统的用户只会搜索地址,所以如果他们输入isthe,我不希望系统将其视为噪音,因为他们可能正在搜索街道以is开头。

我使用下面的查询完全删除了停止列表,现在一切都按预期工作:

ALTER FULLTEXT INDEX ON [Address] SET STOPLIST = off
Run Code Online (Sandbox Code Playgroud)

希望这对其他人有帮助。