我正在尝试使用递归下载网站wget
:
wget --recursive --page-requisites --no-parent --convert-links -e robots=off --domains orteil.dashnet.org orteil.dashnet.org/cookieclicker
Run Code Online (Sandbox Code Playgroud)
它只下载某些文件,而保留其他文件。经过仔细检查,我发现它不会下载返回的文件304 Not Modified
。
该文件返回304 Not Modified
到 Inspector 中并且不会被下载。
我猜这是因为wget
假设它不需要下载带有304
. 我怎样才能强制它下载文件?
304 Not Modified 由服务器发送以响应If-Modified-Since
标头。它应该告诉客户他拥有的副本是最新的。依次发送此标头是wget
因为该文件已存在于输出目录中并带有一些时间戳。
因此,强制下载的明显方法是从空输出目录开始。
您可能会遇到问题,因为您正在使用--convert-links
而不是--backup-converted
,因为--convert-links
更改了文件上的时间戳(从而使其看起来更新)。
编辑:在wget
比我测试更近的s中,还可以添加--no-if-modified-since