sms*_*190 8 amazon-dynamodb apache-spark-sql pyspark
我编写了一个程序来将项目写入DynamoDB表.现在我想使用PySpark读取DynamoDB表中的所有项目.在Spark中有没有可用的库?
您可以通过boto3使用并行扫描作为DynamoDB API的一部分,以及此处描述的为 PySpark 编写的并行 S3 文件处理应用程序之类的方案。基本上,不必先读取所有键,只需创建一个段编号列表并在Spark 函数中硬编码用于扫描的最大段数。map_func
归档时间: |
|
查看次数: |
2102 次 |
最近记录: |