小编use*_*961的帖子

如何使用scrapy爬网蜘蛛在SgmlLinkExtractor中的"允许"规则中包含起始URL

我搜索了很多主题,但似乎没有找到我的具体问题的答案.我为网站创建了一个爬行蜘蛛,它运行得很好.然后我做了一个类似的网站爬行类似的网站,但这次我有一个小问题.下到业务:

我的开始网址如下:www.example.com.该页面包含我想要应用我的蜘蛛的链接:

www.example.com/locationA
www.example.com/locationB
www.example.com/locationC

...

我现在有一个问题:每当我输入开始网址时,它会自动重定向到www.example.com/locationA,所有链接我的蜘蛛工作包括

www.example.com/locationB
www.example.com/locationC ...

所以我的问题是我如何在返回的URL中包含www.example.com/locationA.我甚至得到了如下日志信息:

-2011-11-28 21:25:33 + 1300 [example.com] DEBUG:从http://www.example.com/重定向(302)

-2011-11-28 21:25:34 + 1300 [example.com] DEBUG:重定向(302)为(referer:None)

2011-11-28 21:25:37 + 1300 [example.com] DEBUG:重定向(302)为(referer:www.example.com/locationB)

从parse_item打印出来:www.example.com/locationB

....

我认为这个问题可能与此有关(参考文献:无).有人可以对此有所了解吗？

我通过将起始网址更改为www.example.com/locationB来缩小此问题的范围.由于所有页面都包含所有位置的列表,这次我得到了我的蜘蛛工作:

-www.example.com/locationA

-www.example.com/locationC ...

在一个坚果shell中,我正在寻找方法来包含与开始URL相同(或被重定向)的url到parse_item回调将在其中工作的列表中.

web-crawler scrapy

use*_*961

2014 04-15

7
推荐指数

2
解决办法

2591
查看次数

在后端运行 Scrapy Spider 的网络托管网站的最佳实践

也许我错过了一些关于 Scrapy 的事情，但这就是我要做的：我根据使用 Scrapy Crawl Spiders 从互联网上抓取的信息创建了一个网站。然而，我陷入了如何让我的网站上线的困境。我正在考虑网络托管，但大多数服务提供商不允许在其服务器上安装这些脚本。当然我可以租一台服务器，但目前对我来说太贵了。如果您有类似的经历，谁能解释一下这一点。该网站基于 ASP.NET，因此需要虚拟主机支持 MS SQL、ASP.NET 以及 Scrapy。scrapy中有什么东西可以让我在不安装的情况下运行蜘蛛吗？非常感激。

干杯，雷

web-hosting scrapy

use*_*961

lucky-day

5
推荐指数

1
解决办法

2453
查看次数