用于目录遍历的任务并行库

rei*_*ein 6 .net c# task-parallel-library

我想遍历我的硬盘上的目录,并在所有文件中搜索特定的搜索字符串.这听起来像是可以(或应该)并行完成的完美候选者,因为IO相当慢.

传统上,我会编写一个递归函数来查找和处理当前目录中的所有文件,然后递归到该目录中的所有目录.我想知道如何将其修改为更平行.起初我简单地修改了:

foreach (string directory in directories) { ... }
Run Code Online (Sandbox Code Playgroud)

Parallel.ForEach(directories, (directory) => { ... }) 
Run Code Online (Sandbox Code Playgroud)

但我觉得这可能会创建太多的任务并使自己陷入困境,特别是在尝试重新分配到UI线程时.我也觉得任务的数量是不可预测的,这可能不是一个平行(这是一个词?)这个任务的有效方法.

有没有人成功做过这样的事情?这样做有什么建议?

Jon*_*eet 15

不,这听起来不像是一个很好的候选人并行正是因为IO速度很慢.你将成为磁盘绑定.假设你只有一个磁盘,你真的不想让它同时寻找多个不同的地方.

这有点像试图将几个软管连接到同一个水龙头以便更快地排出水 - 或者尝试在单个核心上运行16个CPU绑定线程:)

  • @rein:如果解析数据需要花费很多时间,那么从同步读取中分离出来可能是有意义的,是的.但是,如果IO是最重要的瓶颈,它可能实际上并没有带来太大的好处 - 但是使代码变得更加复杂.您可能会考虑让一个线程执行同步IO并将数据交给另一个线程来执行所有解析.值得尝试. (3认同)