Glue 使用 S3 还是 HDFS？

hey*_*you 5 amazon-web-services apache-spark aws-glue

我将文件存储在 S3 中并使用 AWS Glue 处理它们。采用无服务器技术，它会在后台启动 Hadoop 集群，而您无需进行管理。

当我处理 S3 中的数据集时，Glue 是否会将其加载到集群的 HDFS 中而不是启动？或者它直接在 S3 上处理所有内容？

我想知道这个，因为我想知道我是否应该在 S3 中正确分区我的数据集，如果 Glue 将所有数据下载到 HDFS，那么我可以在运行 Glue 作业时重新分区它，但如果它没有加载它进入HDFS，我想我必须保持它的分区。

归档时间：	6 年，3 月前
查看次数：	965 次
最近记录：	6 年，3 月前

我可以自定义通过 Slack 的 AWS Chatbot 集成接收的消息吗？ 12

InvalidInstanceId:调用SendCommand操作时发生错误(InvalidInstanceId) 11

将Cognito验证类型设置为CloudFormation中的链接 10

未知服务:'secretsmanager'或AWS Secrets Manager服务不在AWS CLI列表中 7

如何使用Amazon Elastic Beanstalk加密web.config节并部署到多台服务器 6

AWS Video Rekognition 未将结果发布到 SNS 主题 6

从 Django Lambda 函数连接到 Aurora Serverless 时出现“任务在 30 秒后超时” 6

Spark Streaming + json4s-jackson 依赖问题 5

使用pyspark脚本从bigquery加载表到spark集群 4

如何对pyspark数据帧中的单列进行整形操作？ 2

如何修改现有的,未删除的提交？ 7669

在JavaScript中深度克隆对象的最有效方法是什么？ 5181

PostgreSQL"DESCRIBE TABLE" 1790

Git如何处理符号链接？ 1515

在UITableView中使用自动布局来获取动态单元格布局和可变行高 1477

如何在Python中通过索引从列表中删除元素？ 1381

为什么不从List <T>继承？ 1299

将JS对象转换为JSON字符串 1199

如何从Git的暂存区域中删除单个文件,但不将其从索引中删除或撤消对文件本身的更改？ 1177

如何配置Visual Studio代码以始终在新选项卡中打开文件？ 1078