小编Dja*_*oPy的帖子

Scrapy:如何打印请求引用者

是否可以从解析函数中的响应对象获取请求引用者？

10倍

python scrapy

Dja*_*oPy

lucky-day

14
推荐指数

1
解决办法

8068
查看次数

使用Tor代理与scrapy

我需要帮助在Ubuntu中设置Tor并在scrapy框架中使用它.

我做了一些研究,发现了这个指南:

class RetryChangeProxyMiddleware(RetryMiddleware):

    def _retry(self, request, reason, spider):
        log.msg('Changing proxy')
        tn = telnetlib.Telnet('127.0.0.1', 9051)
        tn.read_until("Escape character is '^]'.", 2)
        tn.write('AUTHENTICATE "267765"\r\n')
        tn.read_until("250 OK", 2)
        tn.write("signal NEWNYM\r\n")
        tn.read_until("250 OK", 2)
        tn.write("quit\r\n")
        tn.close()
        time.sleep(3)
        log.msg('Proxy changed')
        return RetryMiddleware._retry(self, request, reason, spider)

Run Code Online (Sandbox Code Playgroud)

然后在settings.py中使用它:

DOWNLOADER_MIDDLEWARE = {
                         'spider.middlewares.RetryChangeProxyMiddleware': 600,
                         }

Run Code Online (Sandbox Code Playgroud)

然后你只想通过本地代理(polipo)发送请求,这可以通过以下方式完成:

tsocks scrapy crawl spirder

Run Code Online (Sandbox Code Playgroud)

有没有人可以确认,这种方法有效,你得到不同的IP？

python proxy tor scrapy

Dja*_*oPy

2012 07-23

6
推荐指数

1
解决办法

7335
查看次数

Scrapy:无法覆盖initfunction

我创建了一个继承自CrawlSpider的蜘蛛.

我需要使用该__init__函数,但始终收到此错误:

码:

class mySpider(CrawlSpider):

 def __init__(self):
   super(mySpider, self).__init__()
     .....

Run Code Online (Sandbox Code Playgroud)

这是我得到的错误:未找到KeyError Spider:mySpider.

没有这个__init__功能一切正常

python scrapy

Dja*_*oPy

lucky-day

3
推荐指数

1
解决办法

4660
查看次数

如何将Selenium html页面传递给htmlXpathSelector

我需要抓一个使用javascript的页面.这就是我使用Selenium的原因.问题是selenium无法获取所需的数据.

我想使用htmlXmlSelector来尝试获取数据.

如何将生成的html selenium传递给htmlXmlSelector？

python selenium scrapy

Dja*_*oPy

lucky-day

3
推荐指数

1
解决办法

2018
查看次数

django-tables2 linkColumn外部网址

我有2个模型属性 - model.name和model.url我需要创建一个linkColumn,列名= model.name并链接到model.url中指定的url

有可能实现这样的事情吗？

谢谢

django django-tables2

Dja*_*oPy

lucky-day

3
推荐指数

2
解决办法

3071
查看次数

如何使用正则表达式匹配带有边界的单词？

例如，我有这个字符串： "http://www.google.com/this_is_our_network/"

我想匹配“工作”这个词，但在开头或结尾都没有字母字符。在上面的示例中，正则表达式不应返回匹配项。

但是，在这个字符串中："http://www.google.com/work_for_us.html"正则表达式应该匹配，因为开头和结尾都没有字母字符。

python regex

Dja*_*oPy

2012 08-04

2
推荐指数

1
解决办法

1959
查看次数

标签统计

python ×5

scrapy ×4

django ×1

django-tables2 ×1

proxy ×1

regex ×1

selenium ×1

tor ×1

Scrapy:如何打印请求引用者

使用Tor代理与scrapy

Scrapy:无法覆盖__init__function

如何将Selenium html页面传递给htmlXpathSelector

django-tables2 linkColumn外部网址

如何使用正则表达式匹配带有边界的单词？

标签 统计

小编Dja_oPy的帖子

Scrapy:无法覆盖initfunction

标签统计