我正在尝试使用以下命令递归下载目录:
wget -r -l2 --no-parent -A "*.pdf" -nd -N -e robots=off http://…
Run Code Online (Sandbox Code Playgroud)
该脚本每 15 分钟执行一次,因此我想尽可能减少请求。我看到有很多请求?C=M;O=A
来自目录顺序修饰符按钮,如Name、Date或Size(示例)。如何防止这些请求发生?
小智 3
\n\n\n\n\n另请注意,查询字符串(以问号开头的 URL 末尾的字符串 (\xe2\x80\x98?\xe2\x80\x99) 不包含在接受/拒绝规则的文件名中,即使尽管这些实际上会影响为本地文件选择的名称。预计 Wget 的未来版本将提供允许与查询字符串进行匹配的选项。
\n
您可能需要使用不同的工具,例如pavuk或httrack。这两个程序提供比 wget 更强大的名称过滤。
\n\n作为替代方案,您可以使用 wget 下载目录并随后对其进行过滤。
\n\nfind . -name \'*\\?\' -delete\n# Here is a less dangerous pattern that matches the string you provided more closely:\nfind . -name \'*\\??=?;?=?\' -delete\n
Run Code Online (Sandbox Code Playgroud)\n
归档时间: |
|
查看次数: |
1468 次 |
最近记录: |