使用 Windows Azure 创建网络爬虫

Ate*_*eik 3 web-crawler azure azure-worker-roles

我想创建一个网络爬虫,它获取某个网站的内容并将其保存在 blob 存储中。在 Azure 上执行此操作的正确方法是什么?我应该启动一个 Worker 角色,并使用 Thread.Sleep 方法使其每天运行一次吗?

我还想知道,如果我使用这个辅助角色,如果我创建它的两个实例,它会如何工作?我注意到使用“Compute Emulator UI”命令“Trace.WriteLine”同时适用于两个实例,有人可以澄清这一点吗?

我使用 php 创建了相同的爬虫,并将 cron 作业设置为每天启动一次脚本,但需要 6 个小时才能获取全部内容,这就是我想使用 Azure 的原因。

Ate*_*eik 5

这是正确的方法,从 2014 年 1 月开始,微软推出了 Azure WebJobs,您可以在其中创建一个项目(例如控制台),并将其作为计划任务运行(发生一次,重复)

https://azure.microsoft.com/en-us/documentation/articles/web-sites-create-web-jobs/ http://www.hanselman.com/blog/IntroducingWindowsAzureWebJobs.aspx