小编Pot*_*ato的帖子

简而言之，我有一个包含普通散文的 Postgres 列，我想确定所有行中x最常用的单词（“单词”是由空格分隔的一组字符，但不是停用词）。

我找到了两个几乎达到目标的解决方案：

SELECT *                                       
FROM   ts_stat($$SELECT to_tsvector('english', title) FROM item$$) 
ORDER  BY ndoc DESC
LIMIT  50;

这很好，除了它返回词干。

SELECT   UNNEST(string_to_array(title, ' ')) AS word, COUNT(*) AS ct
FROM     item 
GROUP    BY 1 
ORDER    BY 2 DESC
LIMIT    50;

这个返回完整的词，但包括停用词。

为简单起见：应该在上找到停用词TABLE stop_words (lowercase_stopword text PRIMARY KEY)。

有人可以帮我上网吗？

7
推荐指数

2
解决办法

2542
查看次数

小编Pot_ato的帖子