由于对作业完成情况进行冗长的顺序检查，Snakemake 处理大型工作流程速度缓慢？>100 倍减速

Question

由于对作业完成情况进行冗长的顺序检查，Snakemake 处理大型工作流程速度缓慢？>100 倍减速

Joh*_*Dam 5 workflow bioinformatics snakemake

我正在开发一个相当复杂的snakemake工作流程，它产生了数十万个工作。一切正常...工作流程执行，DAG 创建（感谢新的检查点实现），但速度慢得难以忍受。我认为瓶颈在于检查已成功完成的工作，然后再继续下一个工作。更烦人的是，它对一批中启动的所有作业按顺序执行此操作，并且仅当所有检查都成功时才执行下一批。每个作业的执行时间大约需要 1 到 2 秒，并且是并行完成的（每个作业 1 个核心），但是 Snakemake 会一次循环执行一个作业完成检查，每个作业需要 5 到 10 秒。因此每批的整个过程需要几分钟。请参阅下面的部分日志，其中显示了同一批次中运行的连续作业的不同时间戳。时间戳之间大约有 11 秒的差异

Finished job 42227. 5853 of 230419 steps (3%) done [Thu Feb 28 09:41:09 2019] Finished job 119645. 5854 of 230419 steps (3%) done [Thu Feb 28 09:41:21 2019] Finished job 161354. 5855 of 230419 steps (3%) done [Thu Feb 28 09:41:32 2019] Finished job 160224. 5856 of 230419 steps (3%) done [Thu Feb 28 09:41:42 2019] Finished job 197063. 5857 of 230419 steps (3%) done [Thu Feb 28 09:41:53 2019] Finished job 200063. 5858 of 230419 steps (3%) done [Thu Feb 28 09:42:04 2019] Finished job 45227. 5859 of 230419 steps (3%) done [Thu Feb 28 09:42:15 2019] Finished job 44097. 5860 of 230419 steps (3%) done [Thu Feb 28 09:42:26 2019] Finished job 5387. 5861 of 230419 steps (3%) done [Thu Feb 28 09:42:37 2019] Finished job 158354. 5862 of 230419 steps (3%) done [Thu Feb 28 09:42:48 2019]

因此，对于 20 个并行进程，将使用 2 秒进行计算，但随后会空闲 20x11 = 220 秒，然后再继续处理接下来的 20 个作业。

在上面的运行中，我有大约 20 万多个工作。如果我缩小日志之间的时间会变得更短：

Finished job 2630. 5 of 25857 steps (0.02%) done [Thu Feb 28 10:14:31 2019] Finished job 886. 6 of 25857 steps (0.02%) done [Thu Feb 28 10:14:31 2019] Finished job 9606. 7 of 25857 steps (0.03%) done [Thu Feb 28 10:14:31 2019] Finished job 4374. 8 of 25857 steps (0.03%) done [Thu Feb 28 10:14:32 2019] Finished job 6118. 9 of 25857 steps (0.03%) done [Thu Feb 28 10:14:32 2019] Finished job 7862. 10 of 25857 steps (0.04%) done [Thu Feb 28 10:14:32 2019] Finished job 278. 11 of 25857 steps (0.04%) done [Thu Feb 28 10:14:32 2019] Finished job 2022. 12 of 25857 steps (0.05%) done [Thu Feb 28 10:14:33 2019]

对于 25K 作业，检查时间现在小于 1 秒。

我希望我在这里缺少一个参数或一些参数，但我担心这可能是一些不平凡的事情。

我使用以下标志运行snakemake：snakemake --keep-going --snakefile My.Snakefile --configfile config.yaml -j 23 --max-jobs-per-second 23

我在具有 256 GB 内存的 24 核系统上本地运行我的工作流程。

任何加快速度的帮助将不胜感激！

约翰

Answer 1

Joh*_*Dam 5

我现在已经通过调用 GNU 并行替换工作流程中的“一对多对一”部分来“解决”了我的问题。

专业人士：

没有文件检查，因此消除了 Snakemake 开销
消除了检查点的必要性
简化的有向无环图

缺点：

没有文件检查，因此失败的作业不太容易检索，并且必须重做工作流程的整个计算密集部分，而不仅仅是失败的文件。
需要深入研究其他日志才能找到到底出了什么问题。

我建议使用带有“now,fail=1”的 --halt 选项和并行的 --joblog 选项来捕获有问题的文件。

在测试集上，我将计算时间从 4 小时减少到 15 分钟。

我仍然觉得 Snakemake 应该能够以某种方式处理这个问题，但我需要继续我的项目。

归档时间：	7 年，2 月前
查看次数：	1472 次
最近记录：	2 年，10 月前

由于对作业完成情况进行冗长的顺序检查，Snakemake 处理大型工作流程速度缓慢？&gt;100 倍减速

由于对作业完成情况进行冗长的顺序检查，Snakemake 处理大型工作流程速度缓慢？>100 倍减速