下载的文件的最后修改与其 HTTP 标头不匹配

Question

下载的文件的最后修改与其 HTTP 标头不匹配

我有一段 Python 代码（无论好坏）根据 Web 服务器上的同一文件检查本地文件。如果它不存在，它会下载它，如果存在，它会os.stat根据服务器上相同文件的 HTTP 标头检查下载文件的最后修改时间。

问题是，这两个数字似乎不相等，即使它们应该相等。这是代码：

from urllib import urlretrieve
from urllib2 import Request, urlopen
from time import strftime, localtime, mktime, strptime
from os import stat, path

destFile = "logo3w.png"
srvFile = "http://www.google.com/images/srpr/logo3w.png"

if path.exists(destFile):
    localLastModified = stat(destFile).st_mtime
    req = Request(srvFile)
    url_handle = urlopen(req)
    headers = url_handle.info()                        
    srvLastModified = headers.getheader("Last-Modified")
    srvLastModified = mktime(strptime(srvLastModified,
      "%a, %d %b %Y %H:%M:%S GMT"))
    print localLastModified, srvLastModified

else:
    urlretrieve(srvFile, destFile)

Run Code Online (Sandbox Code Playgroud)

print语句的返回（如果您运行代码两次）是1334527395.26 1333350817.0.

在我看来，这两个应该是一样的，但它们却大不相同。本地下载文件的修改日期实际上是下载到本地机器的日期，而不是服务器上的最后修改日期。

基本上我要做的就是保留文件的本地缓存（实际应用程序中会有很多文件），如有必要，下载它。我不知道默认情况下 Web 代理应该执行此操作，并且我正在运行存储这些文件的基本 WAMP 服务器，但我不确定如何将其应用于我的 PyQt 应用程序。可能有数十个文件需要下载和缓存，其中大约一半几乎不会更改，因此我正在尝试确定检查和获取这些文件的最快方法。

也许这甚至不是正确的方法，所以如果有（更好/许多其他）方法可以做到这一点，我会全神贯注。

Answer 1

phi*_*hag 5

urllib.urlretrieve只下载文件；它不会复制修改日期。您必须使用os.utime以下方法手动执行此操作：

import os

# current code
else:
    headers = urlretrieve(srvFile, destFile)[1]
    lmStr = headers.getheader("Last-Modified")
    srvLastModified = mktime(strptime(lmStr, "%a, %d %b %Y %H:%M:%S GMT"))
    os.utime(destFile, (srvLastModified, srvLastModified))

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，9 月前
查看次数：	2674 次
最近记录：	13 年，9 月前