小编Ary*_*att的帖子

在代理服务器后面运行selenium

我一直在使用selenium进行自动浏览器模拟和python中的web抓取,它对我来说效果很好.但现在,我必须在代理服务器后面运行它.因此,现在selenium打开窗口但由于未在打开的浏览器上设置代理设置而无法打开请求的页面.目前的代码如下(样本):

from selenium import webdriver

sel = webdriver.Firefox()
sel.get('http://www.google.com')
sel.title
sel.quit()
Run Code Online (Sandbox Code Playgroud)

如何更改上面的代码现在也可以使用代理服务器?

python proxy selenium web-scraping selenium-webdriver

13
推荐指数
2
解决办法
2万
查看次数

使用scrapy从facebook中删除数据

Facebook上的新图搜索允许您使用查询令牌搜索公司的当前员工 - 例如当前的Google员工(例如).

我想通过scrapy刮取结果页面(http://www.facebook.com/search/104958162837/employees/present).

最初的问题是facebook只允许facebook用户访问该信息,因此将我引导至login.php.所以,在抓取这个网址之前,我通过scrapy登录,然后是结果页面.但即使此页面的http响应为200,它也不会丢弃任何数据.代码如下:

import sys
from scrapy.spider import BaseSpider
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.http import Request

class DmozSpider(BaseSpider):
    name = "test"
    start_urls = ['https://www.facebook.com/login.php'];
    task_urls = [query]

def parse(self, response):
return [FormRequest.from_response(response, formname='login_form',formdata={'email':'myemailid','pass':'myfbpassword'}, callback=self.after_login)]

def after_login(self,response):
    if "authentication failed" in response.body:
            self.log("Login failed",level=log.ERROR)
            return
    return Request(query, callback=self.page_parse)

def page_parse(self,response):

    hxs = HtmlXPathSelector(response) …
Run Code Online (Sandbox Code Playgroud)

facebook web-crawler scrapy web

5
推荐指数
1
解决办法
1万
查看次数

什么是Crashlytics(Fabric)服务器的IP白名单以及端口和协议信息

我正在尝试在其中部署iOS应用程序crashlytics.该组织运行防火墙,因此必须为其提供白名单细节crashlytics.我试图寻找它,得到了不同的答案一样23.23.121.187,174.129.19.57,23.21.247.165.

我不知道如何获取这些信息.任何帮助将非常感激.

firewall whitelist crashlytics twitter-fabric

2
推荐指数
1
解决办法
2442
查看次数