使用httrack镜像单页

Question

使用httrack镜像单页

我正在尝试使用httrack(http://www.httrack.com/)来下载单个页面,而不是整个站点.因此,例如,当使用httrack下载www.google.com时,它应该只下载www.google.com下的html以及所有样式表,图片和javascript,而不是关注images.google.com的任何链接, labs.google.com或www.google.com/subdir/等

我尝试了这个-w选项,但没有任何区别.

什么是正确的命令？

编辑

我试过用httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1但不会复制任何图像.

我基本上想要的只是下载该域的索引文件以及所有资产,而不是任何外部或内部链接的内容.

Answer 1

Kev*_*eid 6

你能用wget而不是httrack吗？wget -p将下载单个页面及其所有"先决条件"(图像,样式表).

关于`httrack`的问题，所以请保持正轨。wget 不执行 JS (2认同)

Answer 2

Sou*_*osh 6

httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0  --depth=1 -n

Run Code Online (Sandbox Code Playgroud)

-n选项(或--near)将在网页上下载图像,无论它位于何处.

该图片位于google.com/foo/bar/logo.png.因为,你正在使用s0(保持在同一目录),除非你指定--near,否则它不会下载图像

Answer 3

Luc*_*nte 5

点击“设置选项”
转到标签“限制”
将“最大外部深度”设置为0

归档时间：	15 年，8 月前
查看次数：	16526 次
最近记录：	8 年，4 月前