use*_*271 5 amazon-s3 apache-spark parquet
我在Spark中使用S3时遇到了一些描述问题的问题:
许多专门描述Parquet文件的问题:
以及一些涉及Spark - S3 - Parquet组合的其他问题的外部资源.这让我觉得S3与Spark或这个完整的组合可能不是最好的选择.
我在这里做点什么吗?任何人都可以提供权威的答案解释:
许多问题都不是 parquet 特有的,但 S3 不是文件系统,尽管 API 试图使其看起来像这样。许多名义上低成本的操作需要多个 HTTPS 请求,从而导致延迟。
\n\n关于 JIRA
\n\nrename()commit工作是一个杀手锏。它在任务和作业结束时以及检查点中使用。生成的输出越多,完成任务所需的时间就越长。s3guard工作将包括一个零重命名提交者,但将内容移至其中需要小心和时间。镶木地板?下推有效,但还有一些其他选项可以加快速度。我将它们和其他人列出在: \n http://www.slideshare.net/steve_l/apache-spark-and-object-stores
\n| 归档时间: |
|
| 查看次数: |
489 次 |
| 最近记录: |