小编Nat*_*.B.的帖子

如何使用 wget 抓取仅下载 HTML 文件(忽略图像、css、js)

本质上,我想用 Wget 抓取整个网站,但我需要它永远不要下载其他资产(例如图像、CSS、JS 等)。我只想要 HTML 文件。

谷歌搜索完全没用。

这是我尝试过的命令:

wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Run Code Online (Sandbox Code Playgroud)

我们的网站是混合 flat-PHP 和 CMS。所以,HTML “文件”可能是/path/to/page/path/to/page//path/to/page.php,或/path/to/page.html

我什至包括-R js,css但它仍然下载文件,然后拒绝它们(带宽、CPU 和服务器负载的无意义浪费!)。

wget web-crawler

17
推荐指数
2
解决办法
1万
查看次数

这解码成什么?

我找到了这个,想知道它解码成什么以及它是什么类型的编码:

ZGMzMGRjODlAc25hcGpveS5jb20=
Run Code Online (Sandbox Code Playgroud)

encoding

3
推荐指数
1
解决办法
412
查看次数

标签 统计

encoding ×1

web-crawler ×1

wget ×1