使用S3时,支持Parquet作为输入/输出格式

Question

我在Spark中使用S3时遇到了一些描述问题的问题:

许多专门描述Parquet文件的问题:

以及一些涉及Spark - S3 - Parquet组合的其他问题的外部资源.这让我觉得S3与Spark或这个完整的组合可能不是最好的选择.

我在这里做点什么吗？任何人都可以提供权威的答案解释:

Parquet支持的当前状态,重点是S3.
Spark(SQL)可以充分利用Parquet功能,例如分区修剪,谓词下推(包括深层嵌套模式)和Parquet元数据.所有这些功能都可以按预期在S3(或兼容的存储解决方案)上运行.
正在进行的开发和开放的JIRA门票.
在将这三个一起使用时是否应该注意哪些配置选项？

Answer 1

许多问题都不是 parquet 特有的，但 S3 不是文件系统，尽管 API 试图使其看起来像这样。许多名义上低成本的操作需要多个 HTTPS 请求，从而导致延迟。

\n\n

关于 JIRA

\n\n

HADOOP-11694 ; S3A 第二阶段 \xe2\x80\x94 您将在 Hadoop 2.8 中获得的一切。其中大部分已经在 HDP2.5 中实现，是的，它具有显着的优势。
HADOOP-13204：要遵循的待办事项列表。
对于spark（和hive）来说，使用rename()commit工作是一个杀手锏。它在任务和作业结束时以及检查点中使用。生成的输出越多，完成任务所需的时间就越长。s3guard工作将包括一个零重命名提交者，但将内容移至其中需要小心和时间。

\n\n

镶木地板？下推有效，但还有一些其他选项可以加快速度。我将它们和其他人列出在： \n http://www.slideshare.net/steve_l/apache-spark-and-object-stores

\n

谢谢。当使用 S3 出现问题时，我喜欢将自己视为堆栈跟踪中间的来源。不是 com.aws 位，只是很多 org.apache.hadoop.fs.s3a 条目。我们尽力将这些堆栈跟踪保留在站点之外，但是，嗯，你知道...... (2认同)