我开始将一个夜间数据管道从视觉ETL工具移植到Luigi,我真的很高兴有一个可视化工具来查看工作状态.但是,我注意到在最后一个作业(命名MasterEnd)完成几分钟后,所有节点都从图表中消失,除了MasterEnd.这有点不方便,因为我希望看到白天/过去的一切都完整.
此外,如果在可视化工具中我直接转到最后一个作业的URL,它就找不到它运行的任何历史记录:Couldn't find task MasterEnd(date=2015-09-17, base_url=http://aws.east.com/, log_dir=/home/ubuntu/logs/).我已经证实它今天早上成功运行了.
有一点需要注意的是,我有一个cron,它每15分钟运行一次这个管道来检查S3上的文件.如果存在,则运行,否则停止.我不确定这是否导致从可视化工具中删除任务.我注意到它PID每次运行都会生成一个新的,但我找不到在文档中持续一个PID /天的方法.
所以,我的问题:是否可以在可视化工具中保留当天完成的图表?有没有办法看到过去发生的事情?
感谢所有的帮助
如果这是正确的,我不是 100% 肯定,但这是我首先会尝试的。当你打电话时luigi.run,传递它--scheduler-remove-delay。我猜测这是调度程序在所有依赖项完成后忘记任务之前等待的时间。如果你查看luigi 的源码,默认是 600 秒。例如:
luigi.run(["--workers", "8", "--scheduler-remove-delay","86400")], main_task_cls=task_name)
Run Code Online (Sandbox Code Playgroud)