在Postgres中有效地估计平均值和中位数？

Question

在Postgres中有效地估计平均值和中位数？

Bei*_*bei 5 postgresql statistics scalability

我有一个包含十亿级表的 Postgres 数据库。所以任何聚合函数，例如count() 和avg()，以及“order by random()”都是非常耗时的。Postgres 有 pg_catalog，其中包含许多描述数据库的有用统计信息（例如视图 pg_stats 中的直方图箱）。有没有办法利用 pg_catalog 中的统计信息来估计 Postgres 表中数字列的平均值和中位数？

Answer 1

Mik*_*ll' 5

如果估计足够好，那么统计抽样就是您的朋友。我可能会使用样本大小计算器来确定我需要多少行，然后编写一些代码将那么多键随机插入表中。一个连接，一个函数，你就完成了。

如果您以前从未做过这样的事情，您可能需要阅读一些背景资料。当我不得不做这些事情时，我使用了 nist.gov 的手册。（而且您可能会惊讶于您需要的样本量如此之小。）

归档时间：	14 年，3 月前
查看次数：	2919 次
最近记录：	14 年，3 月前