小编mig*_*use的帖子

AWS Glue ETL 作业和 AWS EMR 之间有什么区别？

如果我必须对以 csv 文件形式存储在 S3 中的巨大数据集（例如 1Tb）执行 ETL，则可以使用 AWS Glue ETL 作业和 AWS EMR 步骤。那么 AWS Glue 与 AWS EMR 有何不同。在这种情况下哪个是更好的解决方案。

etl amazon-s3 amazon-web-services amazon-emr aws-glue

mig*_*use

lucky-day

5
推荐指数

1
解决办法

5422
查看次数

AWS Glue 中 1 个 DPU 中的最大并发任务数

AWS Glue 中的标准 DPU 配有 4 个 vCPU 和 2 个执行器。我对可以与此配置并行运行的最大并发任务数感到困惑。具有 4vcpu 和 2 个执行器的单个 DPU 上是 4 个还是 8 个？

amazon-web-services apache-spark apache-spark-sql aws-glue

mig*_*use

2020 06-28

4
推荐指数

1
解决办法

5628
查看次数

dymodb 流中的序列号

我有一个启用流的 dynamodb 表。lambda 函数使用此流。dynamodb 流中的每条记录都分配有一个 SequenceNumber。其意义何在？

假设 record1 在 record2 之前进入流。这是否意味着 SequenceNumber(record1) < SequenceNumber(record2) ？

amazon-web-services amazon-dynamodb aws-lambda amazon-dynamodb-streams

mig*_*use

2021 04-08

4
推荐指数

1
解决办法

3695
查看次数

写一个 spark 数据帧或写一个胶水动态帧，AWS Glue 中哪个选项更好？

在 AWS Glue 中，我从胶水动态框架中的数据目录中读取数据。然后将动态帧转换为火花数据帧以应用模式转换。为了将数据写回 s3，我看到开发人员将数据帧转换回动态帧。写一个胶水动态帧比写一个火花数据帧有什么优势吗？

amazon-web-services dataframe apache-spark apache-spark-sql aws-glue

mig*_*use

2020 06-13

1
推荐指数

1
解决办法

2129
查看次数

标签统计

amazon-web-services ×4

aws-glue ×3

apache-spark ×2

apache-spark-sql ×2

amazon-dynamodb ×1

amazon-dynamodb-streams ×1

amazon-emr ×1

amazon-s3 ×1

aws-lambda ×1

dataframe ×1

etl ×1

AWS Glue ETL 作业和 AWS EMR 之间有什么区别？

AWS Glue 中 1 个 DPU 中的最大并发任务数

dymodb 流中的序列号

写一个 spark 数据帧或写一个胶水动态帧，AWS Glue 中哪个选项更好？

标签 统计

小编mig_use的帖子

标签统计