Scrapy XPath页面上的所有链接

Question

Scrapy XPath页面上的所有链接

我正在尝试使用Scrapy收集域下的所有URL。我试图使用CrawlSpider从首页开始抓取他们的网站。对于每个页面，我想使用Xpath提取所有href。并以键/值对之类的格式存储数据。

密钥：当前网址值：此页面上的所有链接。

class MySpider(CrawlSpider):
    name = 'abc.com'
    allowed_domains = ['abc.com']
    start_urls = ['http://www.abc.com']

    rules = (Rule(SgmlLinkExtractor()), )
    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)
        item = AbcItem()
        item['key'] = response.url 
        item['value'] = hxs.select('//a/@href').extract()
        return item

Run Code Online (Sandbox Code Playgroud)

我定义我的AbcItem（）如下所示：

从scrapy.item导入项目，字段

class AbcItem(Item):

    # key: url
    # value: list of links existing in the key url
    key = Field()
    value = Field()
    pass

Run Code Online (Sandbox Code Playgroud)

当我像这样运行我的代码时：

nohup scrapy crawl abc.com -o output -t csv &

Run Code Online (Sandbox Code Playgroud)

机器人似乎开始爬行，我可以看到所有配置日志都在填充nohup.out文件，但是输出文件中没有信息。这是我要收集的内容，有人可以帮助我吗？我的机器人可能出了什么问题？

Answer 1

ale*_*cxe 4

您应该为规则定义回调。twitter.com以下是从主页 ( )获取所有链接的示例follow=False：

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.item import Item, Field


class MyItem(Item):
    url= Field()


class MySpider(CrawlSpider):
    name = 'twitter.com'
    allowed_domains = ['twitter.com']
    start_urls = ['http://www.twitter.com']

    rules = (Rule(SgmlLinkExtractor(), callback='parse_url', follow=False), )

    def parse_url(self, response):
        item = MyItem()
        item['url'] = response.url
        return item

Run Code Online (Sandbox Code Playgroud)

然后，在输出文件中，我看到：

http://status.twitter.com/
https://twitter.com/
http://support.twitter.com/forums/26810/entries/78525
http://support.twitter.com/articles/14226-how-to-find-your-twitter-short-code-or-long-code
...

Run Code Online (Sandbox Code Playgroud)

希望有帮助。

对于 python3，使用“from scrapy.linkextractors import LinkExtractor”而不是“SgmlLinkExtractor” (3认同)

归档时间：	12 年，3 月前
查看次数：	12083 次
最近记录：	11 年，9 月前