Cod*_*shi 2 sql sql-server full-text-search
这个问题是关于SQL Server 的 FTS ContainsTable。
为了重现这个问题,我们可以使用下面的脚本来创建一个表并用地址填充它。
CREATE TABLE Address (FullAddress nvarchar(100) NOT NULL);
CREATE UNIQUE CLUSTERED INDEX AddressKey ON Address(FullAddress);
INSERT INTO Address VALUES ('1 OLD YONGE ST, AURORA, ON');
INSERT INTO Address VALUES ('1 OLD YONGE ST, NORTH YORK, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 1, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 10, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('18 YONGE ST UNIT 324, TORONTO, ON');
INSERT INTO Address VALUES ('10415 YONGE ST UNIT 1, RICHMOND HILL, ON');
INSERT INTO Address VALUES ('11211 YONGE ST UNIT 37 BUILDING A, RICHMOND HILL, ON');
Run Code Online (Sandbox Code Playgroud)
现在我们将创建全文目录并在其上创建索引。
CREATE FULLTEXT CATALOG AddressCat;
CREATE FULLTEXT INDEX ON Address(FullAddress) KEY INDEX AddressKey ON AddressCat;
Run Code Online (Sandbox Code Playgroud)
问题
如果我们运行查询并搜索以1开头的地址(注意这是一个数字)并且1是NEAR下一个术语Yong,我们希望它返回上面的所有前 4 条记录。这是查询:
SELECT * FROM CONTAINSTABLE (Address, FullAddress, '"1" NEAR "Yon*"') ORDER BY RANK DESC;
Run Code Online (Sandbox Code Playgroud)
但是,它不返回任何行。这是问题。
但是如果我们执行一个带有两位数的查询,比如11或10,那么它会按预期返回记录。
题:
为什么ContainsTable不返回单位数搜索的任何结果?
查找问题的原因
我尝试了很多事情,例如将查询更改为:
SELECT * FROM CONTAINSTABLE (Address, FullAddress, 'NEAR((1, YONGE), 5, TRUE)')
-- or this
SELECT * FROM CONTAINSTABLE (Address, FullAddress, '1 YON*')
Run Code Online (Sandbox Code Playgroud)
但没有任何运气。
在网上搜索了一些之后,我开始思考(因为这个问题只发生在个位数上)它可能与停用词有关:
停用词。停用词可以是在特定语言中具有含义的词。例如,在英语中,诸如“a”、“and”、“is”和“the”之类的词被排除在全文索引之外,因为它们对于搜索是无用的。停用词也可以是没有语言意义的标记。
然后在这个SO Answer的帮助下,我能够弄清楚 SQL Server 如何解释我的搜索。这是查询和查询结果:
select * from sys.dm_fts_parser('"1" NEAR "Yon*"',2057, 0, 0)
Run Code Online (Sandbox Code Playgroud)
请注意如何将搜索词1视为Noise。这就是问题所在。然后运行这个查询帮助我找到了所有的干扰词,果然数字0-9都在那里:
SELECT ssw.*, ssw.stopword, slg.name
FROM sys.fulltext_system_stopwords ssw
JOIN sys.fulltext_languages slg
ON slg.lcid = ssw.language_id
WHERE slg.lcid = 1033 -- English
Run Code Online (Sandbox Code Playgroud)
解决方案
一种解决方案是从干扰词中去除个位数。但我找不到如何做到这一点。实际上,在我的情况下无论如何都不会想到,因为我的系统的用户只会搜索地址,所以如果他们输入is或the,我不希望系统将其视为噪音,因为他们可能正在搜索街道以is开头。
我使用下面的查询完全删除了停止列表,现在一切都按预期工作:
ALTER FULLTEXT INDEX ON [Address] SET STOPLIST = off
Run Code Online (Sandbox Code Playgroud)
希望这对其他人有帮助。