hey*_*you 5 amazon-web-services apache-spark aws-glue
我将文件存储在 S3 中并使用 AWS Glue 处理它们。采用无服务器技术,它会在后台启动 Hadoop 集群,而您无需进行管理。
当我处理 S3 中的数据集时,Glue 是否会将其加载到集群的 HDFS 中而不是启动?或者它直接在 S3 上处理所有内容?
我想知道这个,因为我想知道我是否应该在 S3 中正确分区我的数据集,如果 Glue 将所有数据下载到 HDFS,那么我可以在运行 Glue 作业时重新分区它,但如果它没有加载它进入HDFS,我想我必须保持它的分区。
| 归档时间: |
|
| 查看次数: |
965 次 |
| 最近记录: |