小编Dja*_*oPy的帖子

Scrapy:如何打印请求引用者

是否可以从解析函数中的响应对象获取请求引用者?

10倍

python scrapy

14
推荐指数
1
解决办法
8068
查看次数

使用Tor代理与scrapy

我需要帮助在Ubuntu中设置Tor并在scrapy框架中使用它.

我做了一些研究,发现了这个指南:

class RetryChangeProxyMiddleware(RetryMiddleware):

    def _retry(self, request, reason, spider):
        log.msg('Changing proxy')
        tn = telnetlib.Telnet('127.0.0.1', 9051)
        tn.read_until("Escape character is '^]'.", 2)
        tn.write('AUTHENTICATE "267765"\r\n')
        tn.read_until("250 OK", 2)
        tn.write("signal NEWNYM\r\n")
        tn.read_until("250 OK", 2)
        tn.write("quit\r\n")
        tn.close()
        time.sleep(3)
        log.msg('Proxy changed')
        return RetryMiddleware._retry(self, request, reason, spider)
Run Code Online (Sandbox Code Playgroud)

然后在settings.py中使用它:

DOWNLOADER_MIDDLEWARE = {
                         'spider.middlewares.RetryChangeProxyMiddleware': 600,
                         }
Run Code Online (Sandbox Code Playgroud)

然后你只想通过本地代理(polipo)发送请求,这可以通过以下方式完成:

tsocks scrapy crawl spirder 
Run Code Online (Sandbox Code Playgroud)

有没有人可以确认,这种方法有效,你得到不同的IP?

python proxy tor scrapy

6
推荐指数
1
解决办法
7335
查看次数

Scrapy:无法覆盖__init__function

我创建了一个继承自CrawlSpider的蜘蛛.

我需要使用该__init__函数,但始终收到此错误:

码:

class mySpider(CrawlSpider):

 def __init__(self):
   super(mySpider, self).__init__()
     .....
Run Code Online (Sandbox Code Playgroud)

这是我得到的错误:未找到KeyError Spider:mySpider.

没有这个__init__功能一切正常

python scrapy

3
推荐指数
1
解决办法
4660
查看次数

如何将Selenium html页面传递给htmlXpathSelector

我需要抓一个使用javascript的页面.这就是我使用Selenium的原因.问题是selenium无法获取所需的数据.

我想使用htmlXmlSelector来尝试获取数据.

如何将生成的html selenium传递给htmlXmlSelector?

python selenium scrapy

3
推荐指数
1
解决办法
2018
查看次数

django-tables2 linkColumn外部网址

我有2个模型属性 - model.name和model.url我需要创建一个linkColumn,列名= model.name并链接到model.url中指定的url

有可能实现这样的事情吗?

谢谢

django django-tables2

3
推荐指数
2
解决办法
3071
查看次数

如何使用正则表达式匹配带有边界的单词?

例如,我有这个字符串: "http://www.google.com/this_is_our_network/"

我想匹配“工作”这个词,但在开头或结尾都没有字母字符。在上面的示例中,正则表达式不应返回匹配项。

但是,在这个字符串中:"http://www.google.com/work_for_us.html"正则表达式应该匹配,因为开头和结尾都没有字母字符。

python regex

2
推荐指数
1
解决办法
1959
查看次数

标签 统计

python ×5

scrapy ×4

django ×1

django-tables2 ×1

proxy ×1

regex ×1

selenium ×1

tor ×1