Jos*_*din 4 python bigdata listdir
我计划获得一个巨大的数据文件夹。该文件夹的总大小约为2TB,并且包含大约 200 万个文件。我需要对这些文件进行一些处理(主要是删除其中 99%)。
我预计由于数据大小会出现一些问题。我特别想知道Python是否能够os.listdir()在合理的时间内正确列出这些文件。
例如,根据我的经验,在某些情况下,在 Ubuntu 上删除像这样的大文件夹可能会很痛苦。
os.scandir创建主要是因为在巨大目录上使用的问题os.listdir,所以我预计os.listdir会在您描述的场景中受到影响,其中os.scandir应该表现更好,既因为它可以以较低的内存消耗处理文件夹,又因为(通常)您至少受益通过避免每个条目的stat调用(例如,区分文件和目录)。
| 归档时间: |
|
| 查看次数: |
1545 次 |
| 最近记录: |