我应该如何使用 wget 或 httrack 从文件夹（且仅是子文件夹）下载特定文件类型？

Question

我正在尝试使用 HTTrack 或 Wget 从网站下载一些 .docx 文件。我只想对文件夹及其子文件夹执行此操作。例如：www.examplewebsite.com/doc（这又下降了 5 个级别）

怎样才是一个好方法呢？

Answer 1

考虑到“蜘蛛”选项始终没有下载，而是跟随，先前提出的答案是可笑的。

迟到总比不到好，但这里是您寻求在本地镜像所需的文件扩展名文件的命令，但作为奖励，您可以下拉目标 html 并自动调整它，这样如果您在本地打开它并单击链接，它们将进行相应的更改和调整，现在指向本地驱动器。

wget -e robots=off -r -k -A docx,doc "https://<url>"

如果这对您有用，我将不胜感激答案！

Answer 2

您可以将 --spider 与 -r （递归选项）一起使用，并使用 --accept 来过滤您感兴趣的文件

wget --spider -r --accept "*.docx"  <url>