小编mig*_*use的帖子

AWS Glue ETL 作业和 AWS EMR 之间有什么区别?

如果我必须对以 csv 文件形式存储在 S3 中的巨大数据集(例如 1Tb)执行 ETL,则可以使用 AWS Glue ETL 作业和 AWS EMR 步骤。那么 AWS Glue 与 AWS EMR 有何不同。在这种情况下哪个是更好的解决方案。

etl amazon-s3 amazon-web-services amazon-emr aws-glue

5
推荐指数
1
解决办法
5422
查看次数

AWS Glue 中 1 个 DPU 中的最大并发任务数

AWS Glue 中的标准 DPU 配有 4 个 vCPU 和 2 个执行器。我对可以与此配置并行运行的最大并发任务数感到困惑。具有 4vcpu 和 2 个执行器的单个 DPU 上是 4 个还是 8 个?

amazon-web-services apache-spark apache-spark-sql aws-glue

4
推荐指数
1
解决办法
5628
查看次数

dymodb 流中的序列号

我有一个启用流的 dynamodb 表。lambda 函数使用此流。dynamodb 流中的每条记录都分配有一个 SequenceNumber。其意义何在?

假设 record1 在 record2 之前进入流。这是否意味着 SequenceNumber(record1) < SequenceNumber(record2) ?

amazon-web-services amazon-dynamodb aws-lambda amazon-dynamodb-streams

4
推荐指数
1
解决办法
3695
查看次数

写一个 spark 数据帧或写一个胶水动态帧,AWS Glue 中哪个选项更好?

在 AWS Glue 中,我从胶水动态框架中的数据目录中读取数据。然后将动态帧转换为火花数据帧以应用模式转换。为了将数据写回 s3,我看到开发人员将数据帧转换回动态帧。写一个胶水动态帧比写一个火花数据帧有什么优势吗?

amazon-web-services dataframe apache-spark apache-spark-sql aws-glue

1
推荐指数
1
解决办法
2129
查看次数