Klu*_*lun 8 ibm parallel-computing
要在我们的 IBM GPFS 集群中递归删除文件,我们使用简单的 unix 命令,如:
rm /my/directories -fr
然而,删除工作需要很长时间。
问题是我们的分布式应用程序(基于 Spark)one hour需要完成。但是,它也会took about an other hour删除由 Spark 等分布式应用程序生成的临时文件。
因此,全局工作负载非常低效。可能是因为该rm命令必须列出每个子目录..
无论如何,您知道使用 GPFS 有效删除整个目录(和子目录)的方法吗?
可能是 IBM 给出了一个特殊的命令来做到这一点?
我认为您无法加快此过程,因为“rm”会触发分布式文件系统的大量元数据更新,并且它们需要相当长的时间才能完成。您可以尝试将“mv”发送到同一文件系统中的某个临时文件夹 (!!!) 并在后台执行实际的“rm”。
| 归档时间: |
|
| 查看次数: |
328 次 |
| 最近记录: |