小编Ary*_*att的帖子

在代理服务器后面运行selenium

我一直在使用selenium进行自动浏览器模拟和python中的web抓取,它对我来说效果很好.但现在,我必须在代理服务器后面运行它.因此,现在selenium打开窗口但由于未在打开的浏览器上设置代理设置而无法打开请求的页面.目前的代码如下(样本):

from selenium import webdriver

sel = webdriver.Firefox()
sel.get('http://www.google.com')
sel.title
sel.quit()

Run Code Online (Sandbox Code Playgroud)

如何更改上面的代码现在也可以使用代理服务器？

python proxy selenium web-scraping selenium-webdriver

Ary*_*att

2015 12-27

13
推荐指数

2
解决办法

2万
查看次数

使用scrapy从facebook中删除数据

Facebook上的新图搜索允许您使用查询令牌搜索公司的当前员工 - 例如当前的Google员工(例如).

我想通过scrapy刮取结果页面(http://www.facebook.com/search/104958162837/employees/present).

最初的问题是facebook只允许facebook用户访问该信息,因此将我引导至login.php.所以,在抓取这个网址之前,我通过scrapy登录,然后是结果页面.但即使此页面的http响应为200,它也不会丢弃任何数据.代码如下:

import sys
from scrapy.spider import BaseSpider
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.http import Request

class DmozSpider(BaseSpider):
    name = "test"
    start_urls = ['https://www.facebook.com/login.php'];
    task_urls = [query]

def parse(self, response):
return [FormRequest.from_response(response, formname='login_form',formdata={'email':'myemailid','pass':'myfbpassword'}, callback=self.after_login)]

def after_login(self,response):
    if "authentication failed" in response.body:
            self.log("Login failed",level=log.ERROR)
            return
    return Request(query, callback=self.page_parse)

def page_parse(self,response):

    hxs = HtmlXPathSelector(response) …

Run Code Online (Sandbox Code Playgroud)

facebook web-crawler scrapy web

Ary*_*att

2019 01-14

5
推荐指数

1
解决办法

1万
查看次数