小编R. *_*ram的帖子

使用 Apache Spark 获取 S3 存储桶中的所有文件名列表

我们有一个包含大量文件的 S3 存储桶。文件列表每天都在增长。我们需要一种方法来获取文件列表并根据文件名中存在的元数据生成计数(分组依据)。我们不需要这个内容。这些文件很大并且包含二进制内容,因此下载它们不是最佳选择。

我们目前正在使用 S3 Java API 获取文件名列表,将它们存储在列表中,并使用 Spark 进行处理。这目前有效,因为文件数量达到数十万,但无法扩展以满足我们未来的需求。

有没有办法使用 Spark 进行整个处理?

java amazon-s3 apache-spark

5
推荐指数
1
解决办法
4176
查看次数

标签 统计

amazon-s3 ×1

apache-spark ×1

java ×1