如果我必须对以 csv 文件形式存储在 S3 中的巨大数据集(例如 1Tb)执行 ETL,则可以使用 AWS Glue ETL 作业和 AWS EMR 步骤。那么 AWS Glue 与 AWS EMR 有何不同。在这种情况下哪个是更好的解决方案。
AWS Glue 中的标准 DPU 配有 4 个 vCPU 和 2 个执行器。我对可以与此配置并行运行的最大并发任务数感到困惑。具有 4vcpu 和 2 个执行器的单个 DPU 上是 4 个还是 8 个?
我有一个启用流的 dynamodb 表。lambda 函数使用此流。dynamodb 流中的每条记录都分配有一个 SequenceNumber。其意义何在?
假设 record1 在 record2 之前进入流。这是否意味着 SequenceNumber(record1) < SequenceNumber(record2) ?
amazon-web-services amazon-dynamodb aws-lambda amazon-dynamodb-streams
在 AWS Glue 中,我从胶水动态框架中的数据目录中读取数据。然后将动态帧转换为火花数据帧以应用模式转换。为了将数据写回 s3,我看到开发人员将数据帧转换回动态帧。写一个胶水动态帧比写一个火花数据帧有什么优势吗?
amazon-web-services dataframe apache-spark apache-spark-sql aws-glue