Glue 使用 S3 还是 HDFS?

hey*_*you 5 amazon-web-services apache-spark aws-glue

我将文件存储在 S3 中并使用 AWS Glue 处理它们。采用无服务器技术,它会在后台启动 Hadoop 集群,而您无需进行管理。

当我处理 S3 中的数据集时,Glue 是否会将其加载到集群的 HDFS 中而不是启动?或者它直接在 S3 上处理所有内容?

我想知道这个,因为我想知道我是否应该在 S3 中正确分区我的数据集,如果 Glue 将所有数据下载到 HDFS,那么我可以在运行 Glue 作业时重新分区它,但如果它没有加载它进入HDFS,我想我必须保持它的分区。