我正在考虑编写一个伪跟踪竞争网站的应用程序,以确保我们的价格保持竞争力等等.我看了可能使用Google Shopping Search API,但我觉得它可能缺乏灵活性而不是全部我们的竞争对手已定期全面上市或更新.
我的问题是,从基于PHP的webcrawler开始,这是一个好地方?我显然想要一个尊重的爬行器(甚至是我们的竞争对手),所以它有望遵守robots.txt和限制.(公平地说,我想我甚至会在第三方服务器上托管它并让它抓住我们的网站以显示没有偏见.)我通过谷歌环顾四周,我找不到任何成熟的包 - 只有一些不好编写的sourceforge脚本,尽管被标记为beta或alpha,但仍未在一年内维护.
寻找想法或建议.谢谢
爬虫本身并没有那么复杂。您只需加载该网站,然后评估并点击您找到的链接即可。
为了变得“友好”,您可能会为您计划拖网的每个站点构建一个爬虫。换句话说,选择一个站点并查看它们的结构。围绕该结构编写您的 get 请求和 html 解析。冲洗并重复其他部位。
如果他们使用通用的购物车软件(这里一切皆有可能),那么显然您有一些重用。
爬行时,您可能希望在非高峰时段访问他们的网站(这是一个猜测)。另外,不要每秒执行 500 个请求。把它调低一点。
您甚至可以考虑的一件事是联系这些其他站点,看看他们是否想参与一些直接的数据共享。理想的情况是每个人都拥有其产品的 RSS 提要。
当然,根据您的销售对象,这可能被视为价格操纵……因此,请谨慎行事。