将数百万个文件从根 AZStorage Blob 复制到子文件夹

And*_*ell 7 azure azure-blob-storage azure-data-factory-2

我有多个 Azure 存储 blob 容器,每个容器都有超过 100 万个 JSON 文件,包括根。无法使用(不会令人震惊),因此尝试使用数据工厂使用文件中的时间戳将它们移动到多个文件夹,以创建 YYYY-MM-DD/HH 文件夹设置为分区系统。但是我尝试过的每种方法都因超时/项目限制过多而失败。需要打开每个文件,获取时间戳,并使用时间戳数据将文件移动到动态路径。想法?

更新:我能够解决这个问题,但我不会称之为“答案”,所以我只会更新问题。为了创建较小的集合,我将管道参数化为接受文件名通配符。然后我创建了另一个使用 0-9,az 数组的管道,将其用作数据集上的参数。蛮力解决方法......假设必须有更好的解决方案,但这现在有效。

Nic*_*ing 0

阅读文档:将数据移入和移出 Azure Blob 存储

以下文章介绍如何使用不同技术将数据移入和移出 Azure Blob 存储。


对于您的情况,我建议您使用 SDK,它支持.NET、Java、Node.js、Python、Go、PHP、Ruby。

相信我,如果你想从 AzureBlob 迁移数据,这DataFactory不是一个好方法,它会让问题变得更加复杂。(这是我从 AzureBlob 迁移超过 1 亿个 JSON 文件(超过 2TB)后的建议)