相关疑难解决方法(0)

字段中的字数统计（所有且唯一） - 有没有更优雅/最佳的方式？

回答这个问题，

鉴于此表（根据问题构建）：

CREATE TABLE wordcount (id SERIAL NOT NULL PRIMARY KEY, description TEXT NOT NULL);

INSERT INTO wordcount (description) VALUES ('What a great day');
INSERT INTO wordcount (description) VALUES ('This is a product. It is useful');

Run Code Online (Sandbox Code Playgroud)

产生这个结果：

     id  | word_count | unique_word_count |  Description                        
---------+------------+-------------------+---------------
     1   |  4         | 4                 | What a great day
     2   |  7         | 6                 | This is a product. It is useful

Run Code Online (Sandbox Code Playgroud)

我给出了（正确的）答案，你可以在这里找到。

然而，在评论中，OP 然后又问了一个问题——如果有问题的字符串是['a', ' ', ' ', …

postgresql optimization string-manipulation query-performance

Vér*_*ace

2020 08-19

5
推荐指数

1
解决办法

646
查看次数

快速从 PostgreSQL 表中获取真正的 RANDOM 行

我以前总是这样做：

SELECT column FROM table ORDER BY random() LIMIT 1;

Run Code Online (Sandbox Code Playgroud)

对于大表，这令人难以忍受，慢得令人难以置信，以至于在实践中毫无用处。这就是为什么我开始寻找更有效的方法。人们推荐：

SELECT column FROM table TABLESAMPLE BERNOULLI(1) LIMIT 1;

Run Code Online (Sandbox Code Playgroud)

虽然速度很快，但它也提供了毫无价值的随机性。它似乎总是选择相同的该死的记录，所以这也毫无价值。

我也试过：

SELECT column FROM table TABLESAMPLE BERNOULLI(100) LIMIT 1;

Run Code Online (Sandbox Code Playgroud)

它提供了更糟糕的随机性。它每次都选择相同的几条记录。这是完全没有价值的。我需要实际的随机性。

为什么仅选择随机记录显然如此困难？为什么它必须抓取每条记录然后对它们进行排序（在第一种情况下）？为什么“TABLESAMPLE”版本总是抓取相同的愚蠢记录？为什么它们不是随机的？当它一遍又一遍地选择相同的几条记录时，谁会想要使用这个“BERNOULLI”的东西？我不敢相信，经过这么多年，我仍然在询问随机记录……这是最基本的查询之一。

用于从 PG 中的表中抓取随机记录的实际命令是什么，该命令并没有慢到需要几秒钟才能获得一个体面大小的表？

postgresql random select postgresql-performance

作者

2021 09-01

3
推荐指数

2
解决办法

3397
查看次数