小编dru*_*dru的帖子

Scrapy:关注链接以获取其他商品数据?

我没有特定的代码问题我只是不确定如何使用Scrapy框架在逻辑上处理以下问题:

我想要抓取的数据结构通常是每个项目的表格行.直截了当,对吧?

最终,我想要删除每一行的标题,截止日期详细信息. 标题截止日期可立即在页面上找到...

但是细节本身不在表格中 - 而是指向包含细节的页面的链接(如果这里没有意义,那么这是一个表格):

|-------------------------------------------------|
|             Title              |    Due Date    |
|-------------------------------------------------|
| Job Title (Clickable Link)     |    1/1/2012    |
| Other Job (Link)               |    3/2/2012    |
|--------------------------------|----------------|
Run Code Online (Sandbox Code Playgroud)

即使在阅读了Scrapy文档的CrawlSpider部分之后,我恐怕仍然不知道如何使用回调和请求在逻辑上传递项目.

callback hyperlink scrapy

32
推荐指数
2
解决办法
2万
查看次数

Scrapy:使用 Selenium webdriver 登录,将 cookie 传输到蜘蛛对象?

我只是想知道是否有任何合理的方法可以将身份验证 cookie 从 webdriver.Firefox() 实例传递给蜘蛛本身?执行一些 webdriver 的东西然后去抓取“一切照旧”会很有帮助。有以下作用:

def __init__(self):
    BaseSpider.__init__(self)
    self.selenium = webdriver.Firefox()

def __del__(self):
    self.selenium.quit()
    print self.verificationErrors

def parse(self, response):

    # Initialize the webdriver, get login page
    sel = self.selenium
    sel.get(response.url)
    sleep(3)

    ##### Transfer (sel) cookies to (self) and crawl normally??? #####
    ...
    ...
Run Code Online (Sandbox Code Playgroud)

cookies selenium webdriver scrapy

5
推荐指数
1
解决办法
4784
查看次数

标签 统计

scrapy ×2

callback ×1

cookies ×1

hyperlink ×1

selenium ×1

webdriver ×1