Bla*_*ack 7 apache-spark parquet
我试图了解以下两者中哪一个是更好的选择,特别是在 Spark 环境中:
我正在研究数据管道设计,并试图了解上述两个选项中的哪一个将产生更优化的解决方案。
与通过 JDBC 连接器读取 Oracle 等 RDBMS 相比,将 parquet 文件直接加载到数据框中并访问数据更具可扩展性。我处理的数据超过 10TB,但我更喜欢 ORC 格式以获得更好的性能。我建议您必须直接从文件中读取数据,原因是数据局部性 - 如果您在 HDFS 数据节点所在的同一主机上运行 Spark 执行器,并且可以有效地将数据读取到内存中,而无需网络开销。请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html和 Apache Spark 如何了解 HDFS 数据节点?更多细节。
| 归档时间: |
|
| 查看次数: |
6695 次 |
| 最近记录: |