HTTP错误403:禁止使用urlretrieve

Z.C*_*hen 2 python http urllib python-requests

我正在尝试下载PDF,但是我收到以下错误:HTTP错误403:禁止

我知道服务器因任何原因都在阻塞,但我似乎无法找到解决方案.

import urllib.request
import urllib.parse
import requests


def download_pdf(url):

full_name = "Test.pdf"
urllib.request.urlretrieve(url, full_name)


try: 
url =         ('http://papers.xtremepapers.com/CIE/Cambridge%20IGCSE/Mathematics%20(0580)/0580_s03_qp_1.pdf')

print('initialized')

hdr = {}
hdr = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2)     AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',
'Content-Length': '136963',
}



print('HDR recieved')

req = urllib.request.Request(url, headers=hdr)

print('Header sent')

resp = urllib.request.urlopen(req)

print('Request sent')

respData = resp.read()

download_pdf(url)


print('Complete')

except Exception as e:
print(str(e))
Run Code Online (Sandbox Code Playgroud)

mha*_*wke 8

你似乎已经意识到了这一点; 远程服务器显然正在检查用户代理标头并拒绝来自Python的urllib的请求.但是urllib.request.urlretrieve(),不允许您更改HTTP标头,但是,您可以使用urllib.request.URLopener.retrieve():

import urllib.request

opener = urllib.request.URLopener()
opener.addheader('User-Agent', 'whatever')
filename, headers = opener.retrieve(url, 'Test.pdf')
Run Code Online (Sandbox Code Playgroud)

NB您正在使用Python 3,这些功能现在被视为"Legacy接口"的一部分,并且URLopener已被弃用.因此,您不应在新代码中使用它们.

除此之外,您只需访问URL就会遇到很多麻烦.你的代码导入了requests,但是你没有使用它 - 你应该这样做,因为它比它容易得多urllib.这对我有用:

import requests

url = 'http://papers.xtremepapers.com/CIE/Cambridge%20IGCSE/Mathematics%20(0580)/0580_s03_qp_1.pdf'
r = requests.get(url)
with open('0580_s03_qp_1.pdf', 'wb') as outfile:
    outfile.write(r.content)
Run Code Online (Sandbox Code Playgroud)

  • 虽然很好 - 它没有解释 403 错误的原因。 (3认同)
  • 这个问题不是在问理由。 (3认同)