小编Fre*_*dom的帖子

如何在 Apache Airflow Dag 中添加手动任务

我正在使用 Apache Airflow 来管理数据处理管道。在管道的中间,需要在下一步处理之前检查一些数据。例如 ... -> task1 -> human review -> task2 -> ... ,其中task1和task2是数据处理任务。当task1完成后,task1生成的数据需要人工审核。审阅者批准数据后,即可启动任务2。人工审核任务可能需要很长时间(例如几周)。

我正在考虑使用外部数据库来存储人工审核结果。并使用Sensor按时间间隔戳出审核结果。但在审核完成之前,它将占用一名 Airflow 工作人员。

任何想法?

airflow

6
推荐指数
2
解决办法
7305
查看次数

如何使用Apache Nutch保存原始html文件

我是搜索引擎和网络抓取工具的新手.现在我想将特定网站中的所有原始页面存储为html文件,但是使用Apache Nutch我只能获取二进制数据库文件.如何使用Nutch获取原始html文件?

Nutch支持吗?如果没有,我可以使用哪些其他工具来实现我的目标.(支持分布式爬网的工具更好.)

search-engine web-crawler nutch

5
推荐指数
3
解决办法
5274
查看次数

Nutch如何与Hadoop集群合作?

所有
我想知道用Hadoop集群如何Nutch的作品.它如何将作业拆分到其他节点?它如何确保群集中的不同节点不会请求相同的URL?
谢谢你.

hadoop nutch

4
推荐指数
1
解决办法
1339
查看次数

标签 统计

nutch ×2

airflow ×1

hadoop ×1

search-engine ×1

web-crawler ×1