SQL Server联合选择从单词列表动态构建

Ada*_*tle 1 sql sql-server sql-server-2005

我需要计算给定表中所有记录中单词列表的出现次数.如果我只有一个字,我可以这样做:

select count(id) as NumRecs where essay like '%word%'
Run Code Online (Sandbox Code Playgroud)

但我的列表可能是数百或数千个单词,我不想连续创建数百或数千个sql请求; 这看起来很傻.我有一个想法,我可以创建一个接受逗号分隔的单词列表的存储过程,对于每个单词,它将运行上面的查询,然后将它们组合在一起,并返回一个巨大的数据集.(听起来很合理,对吧?但我不确定从哪个方向开始......)

如果没有关于union的一些奇怪的东西,我可能会尝试用临时表做一些事情 - 为每个单词和记录计数插入一行,然后select *从该临时表返回.

如果有可能与工会,如何?一种方法是否具有优势(性能或其他方面)?

Mar*_*ers 5

如果要对返回每个单词的结果行的多个单词运行查询,则可以按照建议将这些单词存储在表中,并将查询与其连接,而不是在循环中运行大量查询.请注意,这里的关键词是join,而不是union.

SELECT word, COUNT(*)
FROM words
LEFT JOIN essays
ON essay LIKE '%' + words.word + '%'
GROUP BY word
Run Code Online (Sandbox Code Playgroud)

结果:

'bar', 2
'baz', 2
'corge', 0
'foo', 1
'qux', 1
Run Code Online (Sandbox Code Playgroud)

您可以查看全文搜索.它的运行速度会快得多LIKE '%word%'.它还将正确处理字边界.基于LIKE的解决方案没有.


测试数据:

CREATE TABLE essays (essay NVARCHAR(100) NOT NULL);
INSERT INTO essays (essay) VALUES
('foo bar'),
('bar baz'),
('baz qux');

DROP TABLE words;
CREATE TABLE words (word NVARCHAR(100) NOT NULL);
INSERT INTO words (word) VALUES
('foo'),
('bar'),
('baz'),
('qux'),
('corge');
Run Code Online (Sandbox Code Playgroud)

  • 另外值得一提的是带有高级服务的SQL Server Express 2008 R2(免费)包括全文搜索 - 以防万一Express Edition目前是您不使用全文搜索的限制. (2认同)