Bei*_*bei 5 postgresql statistics scalability
我有一个包含十亿级表的 Postgres 数据库。所以任何聚合函数,例如count() 和avg(),以及“order by random()”都是非常耗时的。Postgres 有 pg_catalog,其中包含许多描述数据库的有用统计信息(例如视图 pg_stats 中的直方图箱)。有没有办法利用 pg_catalog 中的统计信息来估计 Postgres 表中数字列的平均值和中位数?
如果估计足够好,那么统计抽样就是您的朋友。我可能会使用样本大小计算器来确定我需要多少行,然后编写一些代码将那么多键随机插入表中。一个连接,一个函数,你就完成了。
如果您以前从未做过这样的事情,您可能需要阅读一些背景资料。当我不得不做这些事情时,我使用了 nist.gov 的手册。(而且您可能会惊讶于您需要的样本量如此之小。)
归档时间: |
|
查看次数: |
2919 次 |
最近记录: |