我试图从需要身份验证的网站上抓取数据.
我已经能够成功登录使用请求和HttpNtlmAuth与以下内容:
s = requests.session()
url = "https://website.com/things"
response = s.get(url, auth=HttpNtlmAuth('DOMAIN\\USERNAME','PASSWORD'))
Run Code Online (Sandbox Code Playgroud)
我想探索Scrapy的功能,但是我无法成功进行身份验证.
我遇到了以下中间件,看起来它可以工作,但我认为我没有正确实现它:
https://github.com/reimund/ntlm-middleware/blob/master/ntlmauth.py
在我的settings.py中,我有
SPIDER_MIDDLEWARES = { 'test.ntlmauth.NtlmAuthMiddleware': 400, }
Run Code Online (Sandbox Code Playgroud)
在我的蜘蛛班里,我有
http_user = 'DOMAIN\\USER'
http_pass = 'PASS'
Run Code Online (Sandbox Code Playgroud)
我无法让这个工作.
如果有人能够成功地从具有NTLM身份验证的网站上搜索,可以指出我正确的方向,我将不胜感激.