我有一张有 2 亿行的 80 场演出的桌子。我正在尝试加快速度,我注意到它有大量的 varchar 列。在模式中,它们的长度范围从 15 个字符到 250 个字符,大多数设置为 50。所有 varchars 的总长度为 850 个字节。在实际使用中,很多字段为空或者字符串很短。
我知道 Postgres 使用 8k 页面大小。现在,如果我必须进行全表扫描并假设最坏的情况,每页 8k / 850 = 9.6 条记录。浏览我的完整表格将(并且确实)需要很长时间。然而实际上,由于这些字段中的大多数都是空的,那么磁盘上将为这些 varchar 分配多少空间?每页是否会有更多记录,或者 Postgres 是否会添加一些填充以方便以后更新?
我问的原因是因为我正在探索通过将尽可能多的不常访问的 varchars 列从该表中踢出并进入我们将通过联接访问的另一个列来提高性能的想法。
感谢您对我的逻辑的任何确认或否认。
米
您的考虑是合理的,但所有这些都已由 PostgreSQL 自动处理:
NULL 值在 PostgreSQL 表行中根本不占用空间。
Avarchar
只会占用与值实际具有的字节数一样多的空间。长度限制(类型修饰符)不会浪费任何空间。
对于非常宽的行(2000 字节及以上),varchar
首先压缩 s,然后,如果结果仍然太大,则外部存储在TOAST表中。如果您SELECT
来自这样的行,除非您指定请求的列值,否则不会读取烘烤值。
但是,如果一行的大小限制为 850 字节,则太小而无法进入该范围。
您可以通过查看width
输出中的列来检查估计的平均行大小(以字节为单位)EXPLAIN SELECT * FROM tablename
。
PostgreSQL v12 引入了toast_tuple_target
存储参数,使您能够减少 TOAST 数据的限制。如果你调整它,并在用 重写表后VACUUM (FULL)
,PostgreSQL 可以按照你想要的方式存储数据。然后你可以看看这是否真的能让你获得更好的表现。