如何防止 wget 以不同的顺序加载 Apache 目录列表?

Len*_*oyt 7 wget

我正在尝试使用以下命令递归下载目录:

wget -r -l2 --no-parent -A "*.pdf" -nd -N -e robots=off http://…
Run Code Online (Sandbox Code Playgroud)

该脚本每 15 分钟执行一次,因此我想尽可能减少请求。我看到有很多请求?C=M;O=A来自目录顺序修饰符按钮,如NameDateSize示例)。如何防止这些请求发生?

小智 3

正如在相关问题的回答中指出的, wget 的文档说:

\n\n
\n

另请注意,查询字符串(以问号开头的 URL 末尾的字符串 (\xe2\x80\x98?\xe2\x80\x99) 不包含在接受/拒绝规则的文件名中,即使尽管这些实际上会影响为本地文件选择的名称。预计 Wget 的未来版本将提供允许与查询字符串进行匹配的选项。

\n
\n\n

您可能需要使用不同的工具,例如pavukhttrack。这两个程序提供比 wget 更强大的名称过滤。

\n\n

作为替代方案,您可以使用 wget 下载目录并随后对其进行过滤。

\n\n
find . -name \'*\\?\' -delete\n# Here is a less dangerous pattern that matches the string you provided more closely:\nfind . -name \'*\\??=?;?=?\' -delete\n
Run Code Online (Sandbox Code Playgroud)\n