使用wget -c功能在Python中使用urllib下载文件

Nat*_*tim 7 python http urllib download urllib2

我正在使用Python编程软件以从数据库下载HTTP PDF.有时下载会停止并显示以下消息:

retrieval incomplete: got only 3617232 out of 10689634 bytes
Run Code Online (Sandbox Code Playgroud)

如何让下载重新启动,停止使用206 Partial ContentHTTP功能?

我可以使用它wget -c并且它工作得很好,但我想直接在我的Python软件中实现它.

任何的想法 ?

谢谢

unu*_*tbu 7

您可以通过发送GET请求部分下载 Range标题:

import urllib2
req = urllib2.Request('http://www.python.org/')
#
# Here we request that bytes 18000--19000 be downloaded.
# The range is inclusive, and starts at 0.
#
req.headers['Range'] = 'bytes=%s-%s' % (18000, 19000)
f = urllib2.urlopen(req)
# This shows you the *actual* bytes that have been downloaded.
range=f.headers.get('Content-Range')
print(range)
# bytes 18000-18030/18031
print(repr(f.read()))
# '  </div>\n</body>\n</html>\n\n\n\n\n\n\n'
Run Code Online (Sandbox Code Playgroud)

小心检查Content-Range以了解实际下载了哪些字节,因为您的范围可能超出界限,和/或并非所有服务器都看起来都尊重Range标题.