从Spark写入DynamoDB

Question

我正在尝试使用spark从amazon s3(以DataFrame或RDD的形式)获取文件,执行一些简单的转换,然后将文件发送到DynamoDB上的表.

在阅读了一些其他论坛帖子之后,我逐渐明白读取/写入DynamoDB需要使用hadoopRDD - 这与spark中的RDD不同 - 并且与我检索s3文件的那个不同.

我如何将数据框架/ RDD从s3中的文件更改为hadoopRDD,以便将其重新发送？

我正在使用scala并测试spark-shell中的所有内容.

再次感谢您!

Answer 1

您可以使用Amazon 实施的EMR DynamoDB 连接器。它实现了 DynamoDBInputFormat 和 DynamoDBOutputFormat，允许从 DynamoDB 读取数据或向 DynamoDB 写入数据。

您可以在这篇博文中阅读更多相关内容。