使用phantomjs动态内容与scrapy和硒可能的竞争条件

roc*_*m4l 6 selenium scrapy python-2.7 phantomjs ghostdriver

首先,这是一个跟进问题:更改正在运行的蜘蛛scrapyd的数量

我使用phantomjs和selenium为我的scrapy项目创建了一个下载器中间件.当我在本地一次运行一只蜘蛛时,它运作良好,并没有真正放慢速度.

但就在最近,我在AWS上放了一台scrapyd服务器.我注意到一个可能的竞争条件,当一次运行多个蜘蛛时,这似乎会导致错误和性能问题.我觉得问题源于两个不同的问题.

1)蜘蛛试图同时使用可执行的phantomjs.

2)蜘蛛试图同时登录phantomjs的ghostdriver日志文件.

在这里猜测,性能问题可能是蜘蛛试图等待资源可用(这可能是因为我也有一个sqlite数据库的竞争条件).

以下是我得到的错误:

exceptions.IOError:[Errno 13]权限被拒绝:'ghostdriver.log'(日志文件竞争条件?)

selenium.common.exceptions.WebDriverException:消息:'无法连接到GhostDriver'(可执行竞争条件?)

我的问题是:

我对问题的分析是否正确?

除了限制一次可以运行的蜘蛛数量之外,是否有任何已知的解决方案?

还有其他方法我应该处理JavaScript吗?(如果你认为我应该创建一个全新的问题来讨论使用scrapy处理javascript的最佳方法让我知道,我会)

这是我的下载中间件:

class JsDownload(object):

    @check_spider_middleware
    def process_request(self, request, spider):
        if _platform == "linux" or _platform == "linux2":
            driver = webdriver.PhantomJS(service_log_path='/var/log/scrapyd/ghost.log')
        else:
            driver = webdriver.PhantomJS(executable_path=settings.PHANTOM_JS_PATH)
        driver.get(request.url)
        return HtmlResponse(request.url, encoding='utf-8', body=driver.page_source.encode('utf-8'))
Run Code Online (Sandbox Code Playgroud)

注意:_platform代码是一个临时工作,直到我将此源代码部署到静态环境中.

我找到了针对javascript问题的解决方案但是它们是基于蜘蛛的.这让我感到困扰,因为这意味着每个请求都必须在下载程序处理程序中再次执行,并再次在蜘蛛中.这就是为什么我决定将我的实现作为下载中间件.

Eri*_*ord 2

尝试使用 webdriver 与 phantomjs 交互 https://github.com/brandicted/scrapy-webdriver