我需要开发一个垂直搜索引擎作为网站的一部分.搜索引擎的数据来自特定类别的网站.我想为此我需要一个爬虫爬行几个(几百个)站点(在特定的业务类别中)并提取产品和服务的内容和URL.其他类型的页面可能无关紧要.大多数网站都很小或很小(最多几百页).该产品具有10到30个属性.
关于如何编写这样的爬虫和提取器的任何想法.我使用通常的ruby库编写了一些爬虫和内容提取器,但不是一个完整的搜索引擎.我猜,爬虫不时醒来并从网站上下载页面.当然,将遵循通常的礼貌行为,例如检查机器人排除规则.内容提取器可以在读取页面后更新数据库.如何同步爬虫和提取器?它们应该紧密集成?