使用S3时,支持Parquet作为输入/输出格式

use*_*271 5 amazon-s3 apache-spark parquet

我在Spark中使用S3时遇到了一些描述问题的问题:

许多专门描述Parquet文件的问题:

以及一些涉及Spark - S3 - Parquet组合的其他问题的外部资源.这让我觉得S3与Spark或这个完整的组合可能不是最好的选择.

我在这里做点什么吗?任何人都可以提供权威的答案解释:

  • Parquet支持的当前状态,重点是S3.
  • Spark(SQL)可以充分利用Parquet功能,例如分区修剪,谓词下推(包括深层嵌套模式)和Parquet元数据.所有这些功能都可以按预期在S3(或兼容的存储解决方案)上运行.
  • 正在进行的开发和开放的JIRA门票.
  • 在将这三个一起使用时是否应该注意哪些配置选项?

Ste*_*ran 3

许多问题都不是 parquet 特有的,但 S3 不是文件系统,尽管 API 试图使其看起来像这样。许多名义上低成本的操作需要多个 HTTPS 请求,从而导致延迟。

\n\n

关于 JIRA

\n\n
    \n
  • HADOOP-11694 ; S3A 第二阶段 \xe2\x80\x94 您将在 Hadoop 2.8 中获得的一切。其中大部分已经在 HDP2.5 中实现,是的,它具有显着的优势。
  • \n
  • HADOOP-13204:要遵循的待办事项列表。
  • \n
  • 对于spark(和hive)来说,使用rename()commit工作是一个杀手锏。它在任务和作业结束时以及检查点中使用。生成的输出越多,完成任务所需的时间就越长。s3guard工作将包括一个零重命名提交者,但将内容移至其中需要小心和时间。
  • \n
\n\n

镶木地板?下推有效,但还有一些其他选项可以加快速度。我将它们和其他人列出在: \n http://www.slideshare.net/steve_l/apache-spark-and-object-stores

\n

  • 谢谢。当使用 S3 出现问题时,我喜欢将自己视为堆栈跟踪中间的来源。不是 com.aws 位,只是很多 org.apache.hadoop.fs.s3a 条目。我们尽力将这些堆栈跟踪保留在站点之外,但是,嗯,你知道...... (2认同)