用多个蜘蛛运行Selenium无头

Question

用多个蜘蛛运行Selenium无头

我有许多使用scrapyd并行运行的scrapy蜘蛛.我正在做的是类似下面的代码.

我的问题是,我真的需要为每个蜘蛛开始显示吗？驱动程序如何知道开始使用哪个显示器？我是否应该全局启动一个显示并在同一个显示中启动多个webdriver实例？

def __init__(self):
    dispatcher.connect(self.spider_closed, signals.spider_closed)

def spider_closed(self, spider):
    if self.driver:
        self.driver.quit()

    if self.display:
        self.display.stop()

def parse(self, response):
    self.display = Display(visible=0, size=(1024, 768))
    self.display.start()
    self.driver = webdriver.Firefox()

    self.driver.get(response.url)
    page = Selector(text=self.driver.page_source)

    # doing all parsing etc

Run Code Online (Sandbox Code Playgroud)

Answer 1

Abh*_*kar 3

我建议改用splitter浏览器处理程序；它是硒的包装。它完全解决了您的问题，因为显示处理是由包完成的。

通过更多的软件包安装，您还可以完全消除对 Display 的需要，这意味着 splinter 现在是无头的（浏览器窗口不会打开，而且速度要快得多）。查看Splinter 文档，了解如何制作 headless。我个人建议使用 PhantomJS 驱动程序，尽管您必须安装非 Python PhantomJS 程序。

归档时间：	9 年，8 月前
查看次数：	330 次
最近记录：	9 年，8 月前