我们有一个包含大量文件的 S3 存储桶。文件列表每天都在增长。我们需要一种方法来获取文件列表并根据文件名中存在的元数据生成计数(分组依据)。我们不需要这个内容。这些文件很大并且包含二进制内容,因此下载它们不是最佳选择。
我们目前正在使用 S3 Java API 获取文件名列表,将它们存储在列表中,并使用 Spark 进行处理。这目前有效,因为文件数量达到数十万,但无法扩展以满足我们未来的需求。
有没有办法使用 Spark 进行整个处理?
java amazon-s3 apache-spark
amazon-s3 ×1
apache-spark ×1
java ×1