测量 PostgreSQL 表行的大小

我有一个 PostgreSQL 表。select *很慢，但又select id好又快。我认为可能是行的大小非常大并且需要一段时间来运输，或者可能是其他一些因素。

我需要所有字段（或几乎所有字段），因此仅选择一个子集不是一个快速解决方案。选择我想要的字段仍然很慢。

这是我的表架构减去名称：

integer                  | not null default nextval('core_page_id_seq'::regclass)
character varying(255)   | not null
character varying(64)    | not null
text                     | default '{}'::text
character varying(255)   | 
integer                  | not null default 0
text                     | default '{}'::text
text                     | 
timestamp with time zone | 
integer                  | 
timestamp with time zone | 
integer                  |

Run Code Online (Sandbox Code Playgroud)

文本字段的大小可以是任意大小。但是，在最坏的情况下，不会超过几千字节。

问题

有什么关于这叫“疯狂低效”的吗？
有没有办法在 Postgres 命令行中测量页面大小来帮助我调试？

postgresql performance size disk-space postgresql-performance

Joe*_*Joe

2020 06-15

119
推荐指数

5
解决办法

10万
查看次数

为读取性能配置 PostgreSQL

我们的系统写入了大量数据（一种大数据系统）。写入性能足以满足我们的需求，但读取性能真的太慢了。

我们所有表的主键（约束）结构都相似：

timestamp(Timestamp) ; index(smallint) ; key(integer).

Run Code Online (Sandbox Code Playgroud)

一个表可以有数百万行，甚至数十亿行，而一个读请求通常是针对特定时间段（时间戳/索引）和标记的。查询返回大约 20 万行是很常见的。目前，我们每秒可以读取大约 15k 行，但我们需要快 10 倍。这是可能的，如果是，如何？

注意： PostgreSQL 是和我们的软件一起打包的，所以不同客户端的硬件是不一样的。

它是一个用于测试的虚拟机。VM 的主机是具有 24.0 GB RAM 的 Windows Server 2008 R2 x64。

服务器规范（虚拟机 VMWare）

Server 2008 R2 x64
2.00 GB of memory
Intel Xeon W3520 @ 2.67GHz (2 cores)

Run Code Online (Sandbox Code Playgroud)

`postgresql.conf` 优化

shared_buffers = 512MB (default: 32MB)
effective_cache_size = 1024MB (default: 128MB)
checkpoint_segment = 32 (default: 3)
checkpoint_completion_target = 0.9 (default: 0.5)
default_statistics_target = 1000 (default: 100)
work_mem = 100MB (default: 1MB)
maintainance_work_mem = 256MB …

Run Code Online (Sandbox Code Playgroud)

postgresql performance postgresql-9.1 query-performance

JPe*_*ier

2020 01-08

47
推荐指数

2
解决办法

4万
查看次数

如何在 PostgreSQL 中使 DISTINCT ON 更快？

我station_logs在 PostgreSQL 9.6 数据库中有一个表：

    Column     |            Type             |    
---------------+-----------------------------+
 id            | bigint                      | bigserial
 station_id    | integer                     | not null
 submitted_at  | timestamp without time zone | 
 level_sensor  | double precision            | 
Indexes:
    "station_logs_pkey" PRIMARY KEY, btree (id)
    "uniq_sid_sat" UNIQUE CONSTRAINT, btree (station_id, submitted_at)

Run Code Online (Sandbox Code Playgroud)

我试图level_sensor根据submitted_at, 对于每个station_id. 大约有 400 个唯一station_id值，每个station_id.

创建索引之前：

EXPLAIN ANALYZE
SELECT DISTINCT ON(station_id) station_id, submitted_at, level_sensor
FROM station_logs ORDER BY station_id, submitted_at DESC;

Run Code Online (Sandbox Code Playgroud)

 唯一（成本=4347852.14..4450301.72行=89宽度=20）（实际时间=22202.080..27619.167行=98循环=1）
   -> Sort …

postgresql performance greatest-n-per-group postgresql-9.6 query-performance

Kok*_*zzu

2020 01-08

16
推荐指数

2
解决办法

1万
查看次数

大表中完全空的列如何影响性能？

我在 Postgres 数据库中有 4 亿行，表有 18 列：

id serial NOT NULL,
a integer,
b integer,
c integer,
d smallint,
e timestamp without time zone,
f smallint,
g timestamp without time zone,
h integer,
i timestamp without time zone,
j integer,
k character varying(32),
l integer,
m smallint,
n smallint,
o character varying(36),
p character varying(100),
q character varying(100)

Run Code Online (Sandbox Code Playgroud)

列e、k和n都是 NULL，它们根本不存储任何值，此时完全没用。它们是原始设计的一部分，但从未被移除。

编辑 - 大多数其他列都是非 NULL。

问题：

如何计算这对存储的影响？它是否等于列的大小 * 行数？
删除这些空列会显着提高该表的性能吗？页面缓存能够容纳更多行吗？

postgresql performance database-design storage disk-space postgresql-performance

ebi*_*ebi

2020 01-08

13
推荐指数

1
解决办法

4824
查看次数

Postgres 9.4.4 查询需要永远

我们在 CentOS 6.5 上运行 Postgres 9.4.4 并且有一个已经工作多年的 SELECT 查询，但在我们从 9.2 升级后停止工作并挂起（花了一段时间才注意到它，所以我不知道它是否是我们升级与否后立即）。

SELECT id || ':' || group_number AS uniq_id
FROM   table_one
WHERE  id || ':' || group_number NOT IN (
   SELECT id || ':' || group_number
   FROM table_two
   )
AND    id NOT IN (
   SELECT id
   FROM table_three
   WHERE timestamp > NOW() - INTERVAL '30 days' 
   AND client_id > 0
   );

Run Code Online (Sandbox Code Playgroud)

在所有表中id都是一个整数，但存储为character varying (15)（旧系统）。group_number存储为smallint.

table_two 的子查询返回大约 250 万条记录。的子查询table_three返回大约 2,500 条记录。如果单独运行，两者都在大约 …

postgresql performance postgresql-9.4 query-performance

use*_*922

2020 01-08

5
推荐指数

1
解决办法

3495
查看次数

OR 运算符的索引：a=x 或 b=x

我有一个包含三个整数列id和a的表b。
我想获取所有记录，其中a或b匹配指定参数排序id：

select id, a, b from t where a=x or b=x order by id

Run Code Online (Sandbox Code Playgroud)

请注意，和的x值相同。ab

这里最合适的索引是什么？

更新：我们总是在列和中寻找相同的值，这一事实有什么用处吗？我们可以为此创建一个表达式索引吗？ab

postgresql performance index postgresql-performance

Ale*_*pov

2020 01-08

4
推荐指数

1
解决办法

928
查看次数

在 TIMESTAMP 列上创建索引以与范围运算符一起使用

TLDR：我可以创建一个由以下WHERE子句使用的索引吗：

WHERE foo_date <@ tsrange('2018-01-01', '2018-02-01')

Run Code Online (Sandbox Code Playgroud)

假设我有一张这样的表：

创建表 foo
(
    foo_id INTEGER 由默认身份生成，
    不带时区的 foo_date 时间戳 NOT NULL，
    约束 foo_pkey 主键 (foo_id)
);

此表包含 100,000 条记录，日期从2009-01-01到2018-12-29。我希望能够查询给定日期范围内的行（例如 2018 年 1 月的行）。

选项1

一种方法是使用BETWEEN运算符：

SELECT * FROM foo WHERE foo_date BETWEEN '2018-01-01' AND '2018-01-31';

这种方法的问题是，如果foo_date发生在2018-01-31午夜之后，它们将不会包含在此查询中。所以我可以将查询更改为BETWEEN '2018-01-01' AND '2018-02-01'. 那么问题来了，然而，上发生的记录2018-02-01 00:00:00。这些将被包括在内，这是我不想要的。

选项 2

Aaron Bertrand提出的另一种选择是使用这个结构：

foo_date >= '2018-01-01' AND foo_date < '2018-02-01'
Run Code Online (Sandbox Code Playgroud)
（是的，此博客适用于 …

postgresql index timestamp range-types

Zac*_*ack

lucky-day

4
推荐指数

1
解决办法

6045
查看次数

标签统计

postgresql ×7

performance ×6

postgresql-performance ×3

query-performance ×3

disk-space ×2

index ×2

database-design ×1

greatest-n-per-group ×1

postgresql-9.1 ×1

postgresql-9.4 ×1

postgresql-9.6 ×1

range-types ×1

size ×1

storage ×1

timestamp ×1

相关疑难解决方法(0)

问题

服务器规范（虚拟机 VMWare）

postgresql.conf 优化

选项1

选项 2

标签 统计

`postgresql.conf` 优化

标签统计