以 Parquet 格式保存 PostgreSQL 数据

Ivy*_*y.W 7 postgresql apache-spark parquet

我正在做一个项目,需要从一个巨大的 PostgreSQL 数据库生成镶木地板文件。数据大小可能很大(例如:10TB)。我对这个主题非常陌生,并且在网上做了一些研究,但没有找到将数据转换为 Parquet 文件的直接方法。这是我的问题:

  1. 我看到的唯一可行的解​​决方案是通过 JDBC 将 Postgres 表加载到 Apache Spark 并保存为 parquet 文件。但我认为传输 10TB 数据时会非常慢。
  2. 是否可以生成 10 TB 的巨大 Parquet 文件?或者创建多个镶木地板文件更好?

希望我的问题很清楚,我非常感谢任何有用的反馈。提前致谢!

小智 -2

对此卷使用ORC格式而不是 parquet 格式。我假设数据已分区,因此我认为利用数据分区并行提取是个好主意。