小编Vol*_*ort的帖子

使用Scrapy进行NTLM身份验证以进行网络抓取

我试图从需要身份验证的网站上抓取数据.
我已经能够成功登录使用请求和HttpNtlmAuth与以下内容:

s = requests.session()     
url = "https://website.com/things"                                                      
response = s.get(url, auth=HttpNtlmAuth('DOMAIN\\USERNAME','PASSWORD'))
Run Code Online (Sandbox Code Playgroud)

我想探索Scrapy的功能,但是我无法成功进行身份验证.

我遇到了以下中间件,看起来它可以工作,但我认为我没有正确实现它:

https://github.com/reimund/ntlm-middleware/blob/master/ntlmauth.py

在我的settings.py中,我有

SPIDER_MIDDLEWARES = { 'test.ntlmauth.NtlmAuthMiddleware': 400, }
Run Code Online (Sandbox Code Playgroud)

在我的蜘蛛班里,我有

http_user = 'DOMAIN\\USER'
http_pass = 'PASS'
Run Code Online (Sandbox Code Playgroud)

我无法让这个工作.

如果有人能够成功地从具有NTLM身份验证的网站上搜索,可以指出我正确的方向,我将不胜感激.

python scrapy web-scraping

7
推荐指数
2
解决办法
1684
查看次数

标签 统计

python ×1

scrapy ×1

web-scraping ×1