我正在使用 Apache Airflow 来管理数据处理管道。在管道的中间,需要在下一步处理之前检查一些数据。例如
... -> task1 -> human review -> task2 -> ...
,其中task1和task2是数据处理任务。当task1完成后,task1生成的数据需要人工审核。审阅者批准数据后,即可启动任务2。人工审核任务可能需要很长时间(例如几周)。
我正在考虑使用外部数据库来存储人工审核结果。并使用Sensor按时间间隔戳出审核结果。但在审核完成之前,它将占用一名 Airflow 工作人员。
任何想法?
我是搜索引擎和网络抓取工具的新手.现在我想将特定网站中的所有原始页面存储为html文件,但是使用Apache Nutch我只能获取二进制数据库文件.如何使用Nutch获取原始html文件?
Nutch支持吗?如果没有,我可以使用哪些其他工具来实现我的目标.(支持分布式爬网的工具更好.)
所有
我想知道用Hadoop集群如何Nutch的作品.它如何将作业拆分到其他节点?它如何确保群集中的不同节点不会请求相同的URL?
谢谢你.