小编Ivy*_*y.W的帖子

以 Parquet 格式保存 PostgreSQL 数据

我正在做一个项目,需要从一个巨大的 PostgreSQL 数据库生成镶木地板文件。数据大小可能很大(例如:10TB)。我对这个主题非常陌生,并且在网上做了一些研究,但没有找到将数据转换为 Parquet 文件的直接方法。这是我的问题:

  1. 我看到的唯一可行的解​​决方案是通过 JDBC 将 Postgres 表加载到 Apache Spark 并保存为 parquet 文件。但我认为传输 10TB 数据时会非常慢。
  2. 是否可以生成 10 TB 的巨大 Parquet 文件?或者创建多个镶木地板文件更好?

希望我的问题很清楚,我非常感谢任何有用的反馈。提前致谢!

postgresql apache-spark parquet

7
推荐指数
1
解决办法
1983
查看次数

标签 统计

apache-spark ×1

parquet ×1

postgresql ×1