小编day*_*r4b的帖子

使用wget镜像具有相同名称的路径和子文件夹的网站

我正在尝试制作一个网站的镜像,但是URL包含几个以正常wget方式复制到磁盘上文件时重叠的路径。该问题通过URL和http://example.com/news和表现出来http://example.com/news/article1

Wget将这些URL下载为/news/news/article1,但这意味着该/news文件将被具有相同名称的文件夹覆盖。

适当的静态镜像将要求下载这两个URL而不是/news/index.html/news/article1

我试图通过运行wget两次并相应地移动文件来解决此问题,但是这对我来说并不是很好。该/news路径具有/news/article1需要转换的链接。我正在使用该-k选项来转换链接,但是如果我运行wget两次,它不会在这些不相关的下载文件之间转换链接。

这是我的命令:

wget -p -r -l4 -k -d -nH http://example.com
Run Code Online (Sandbox Code Playgroud)

这是我尝试过的工作的一个示例:

# wget once at first level (gets /news path but not /news/*)
wget -p -r -l1 -k -nH http://example.com

# move /news file to temp path
mv news /tmp/news.html

# wget again to get everything else (notice the different level …
Run Code Online (Sandbox Code Playgroud)

linux wget web-crawler

5
推荐指数
1
解决办法
1073
查看次数

标签 统计

linux ×1

web-crawler ×1

wget ×1