从Spark程序连接DynamoDB以使用Python从一个表加载所有项目?

sms*_*190 8 amazon-dynamodb apache-spark-sql pyspark

我编写了一个程序来将项目写入DynamoDB表.现在我想使用PySpark读取DynamoDB表中的所有项目.在Spark中有没有可用的库?

Ale*_*kis 1

您可以通过boto3使用并行扫描作为DynamoDB API的一部分,以及此处描述的为 PySpark 编写的并行 S3 文件处理应用程序之类的方案。基本上,不必先读取所有键,只需创建一个段编号列表并在Spark 函数中硬编码用于扫描的最大段数。map_func