我正在尝试使用httrack(http://www.httrack.com/)来下载单个页面,而不是整个站点.因此,例如,当使用httrack下载www.google.com时,它应该只下载www.google.com下的html以及所有样式表,图片和javascript,而不是关注images.google.com的任何链接, labs.google.com或www.google.com/subdir/等
我尝试了这个-w选项,但没有任何区别.
什么是正确的命令?
编辑
我试过用httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1但不会复制任何图像.
我基本上想要的只是下载该域的索引文件以及所有资产,而不是任何外部或内部链接的内容.
重要提示 - 我希望此功能仅适用于移动应用程序,而不适用于 flutter web。
我在保存 flutter 应用程序中的网站时遇到一些问题。我尝试过对 inappwebview 使用缓存方法和 savewebarchive 方法。该方法的问题在于它没有保存网站的完整内容。它仅保存 HTML 和 CSS 文件。
我想保存整个网站的所有内容,如 HTML、CSS、js、字体文件、图像,并将其存储在 flutter 应用程序中。我已经使用了一些插件,但没有一个有帮助。
我正在寻找与 httrack 相同的功能。
任何正确的方向都会受到重视。
互联网上有许多工具可以下载网站的静态副本,例如HTTrack.还有许多工具,一些商业用于"抓取"来自网站的内容,例如Mozenda.然后有一些工具显然内置在PHP和*nix等程序中,你可以在其中"file_get_contents"或"wget"或"cURL"或只是"file()".
我完全被所有这一切搞糊涂了,我认为主要原因是我遇到的所有描述都没有使用相同的词汇.从表面上看,至少看起来他们都在做同样的事情,但也许不是.
这是我的问题.这些工具到底在做什么?他们做同样的事吗?他们是通过不同的技术做同样的事吗?如果他们没有做同样的事情,他们有什么不同?
无论我多么努力,我似乎都无法让 httrack 保持指向其他域的链接完好无损。我试过使用这个--stay-on-same-domain论点,但似乎并没有做到。我也试过添加过滤器不起作用。
有简单的,必须有一些选择,我在这里失踪。
从HTTrack点击捕获URL时出现问题.也就是说它生成的代理地址不正确.
这是结果:
请TEMPORARILY将浏览器的代理首选项设置为:
代理人的地址:fe80 :: 141b:2ce3:3f57:fefb
代理的端口:8080
我禁用了IPV6.但它仍然是这样的.你能看到http://clip2net.com/s/iyDXY7的细节吗?
我正在尝试使用 HTTrack 或 Wget 从网站下载一些 .docx 文件。我只想对文件夹及其子文件夹执行此操作。例如:www.examplewebsite.com/doc(这又下降了 5 个级别)
怎样才是一个好方法呢?
我想从 URL 下载页面,这很简单。但是在第一页我必须登录,就像我通常从普通浏览器所做的那样。但是 HTTrack 正在从第一页下载,因为它无法使用我的 cookie 或登录。
我有什么办法可以解决这个问题吗?
我正在尝试在我的MAC上编译httrack../configure成功.但是在编译软件包时,我遇到了以下错误,并且无法解决问题.
In file included from htscore.c:40:
In file included from ./htscore.h:81:
In file included from ./htslib.h:67:
./htsbasenet.h:76:10: fatal error: 'openssl/ssl.h' file not found
#include <openssl/ssl.h>
^
2 warnings and 1 error generated.
make[2]: *** [libhttrack_la-htscore.lo] Error 1
make[1]: *** [all-recursive] Error 1
make: *** [all] Error 2
Run Code Online (Sandbox Code Playgroud)
也试过这个解决方案,但没有运气 https://serverfault.com/questions/283271/how-to-get-httrack-to-work-with-ssl-on-mac-os-x-libssl-so-not-发现
Openssl位于/ usr/include/openssl
我想在我的可执行文件中捆绑一个很棒的网站复印机,用python 3和py2exe创建.
在常见问题解答部分的HTTrack官方网站上,他们说有可用的DLL /库版本.
但是我不知道从哪里开始,甚至一旦它被捆绑在可执行文件中如何使用DLL.
那么如何将httrack捆绑成python 3可执行文件,并使用其功能开始复制网站?
编辑:
我发现httrack-py 0.6.1但它只支持python 2并使用旧版本的httrack,所以我不能将它用于我的可执行文件.
HTTrack 提供了过滤器选项,但我无法弄清楚如何下载某个子文件夹级别并忽略所有其他子文件夹。
例子:
domain.com/
domain.com/pets/
domain.com/pets/elephant
domain.com/zoo/tiger
domain.com/pics/giraffe
domain.com/pics/giraffe/details
Run Code Online (Sandbox Code Playgroud)
我只想下载子文件夹elephant,tiger并giraffe以 HTML 形式下载,包括从那里链接的图像。
HTTrack有那么强大吗?(我使用的是 Windows GUI 版本“WinHTTrack”。)
PS:如果能将其作为程序选项就好了,例如“最小镜像深度”。
我尝试使用httrack下载我的 phpbb 论坛,但无论我使用什么设置,我都无法停止下载整个维基百科网站,以及链接位于论坛任何位置的许多其他网站...
我设法做到的让它只下载索引页面,但这也不好。
我以为设置
+forum.mysite.com/*
Run Code Online (Sandbox Code Playgroud)
在选项->扫描规则中可以解决问题,但它继续再次下载整个维基百科:(
问题
下载动态加载链接/图像的网站的完整工作离线副本
研究
Stackoverflow 上有一些问题(例如[1]、[2]、[3])解决了这个问题,其中大多数都使用wget或httrack得到了最佳答案,但这两个问题都惨遭失败(如果我错了,请纠正我)在动态加载链接或使用srcset而不是srcforimg标签或通过 JS 加载的任何内容的页面上。一个相当明显的解决方案是Selenium,但是,如果您曾经在生产中使用过 Selenium ,您很快就会开始看到这种决定所带来的问题(资源繁重,使用全头驱动程序相当复杂,事实上它不是为那),话虽这么说,有人声称多年来一直在生产中轻松使用它
预期解决方案
一个脚本(最好是Python),用于解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以做到这一点。如果您的解决方案是“因此实现您自己的”,那么首先提出这个问题是毫无意义的,我正在寻求现有的实现。
例子
全部
HTTRACK 用户代理请求:
Mozilla/2.0(兼容;MS FrontPage Express 2.0)
Mozilla/4.05 [fr] (Win98; I)
Lynx/2.8rel.3 libwww-FM/2.14
Java1.1.4
Mozilla/4.5(兼容;HTTrack 3.0x;Windows 98)
HyperBrowser (Cray; I; OrganicOS 9.7.42beta-27)
HTTrack/3.0x
HTTrack Website Copier/3.0x(离线浏览器;网络镜像实用程序)
如何使用 .htaccess 或 robots.txt 或任何类型阻止 httrack 网站复制程序和示例程序?
感谢您的帮助。