我正在尝试使用 HTTrack 或 Wget 从网站下载一些 .docx 文件。我只想对文件夹及其子文件夹执行此操作。例如:www.examplewebsite.com/doc(这又下降了 5 个级别)
怎样才是一个好方法呢?
考虑到“蜘蛛”选项始终没有下载,而是跟随,先前提出的答案是可笑的。
迟到总比不到好,但这里是您寻求在本地镜像所需的文件扩展名文件的命令,但作为奖励,您可以下拉目标 html 并自动调整它,这样如果您在本地打开它并单击链接,它们将进行相应的更改和调整,现在指向本地驱动器。
wget -e robots=off -r -k -A docx,doc "https://<url>"
Run Code Online (Sandbox Code Playgroud)
如果这对您有用,我将不胜感激答案!
您可以将 --spider 与 -r (递归选项)一起使用,并使用 --accept 来过滤您感兴趣的文件
wget --spider -r --accept "*.docx" <url>
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
7409 次 |
| 最近记录: |