相关疑难解决方法(0)

下载网页和依赖项,包括css图像

我经常需要下载一个网页,然后离线编辑它.我尝试了一些工具,他们缺少的主要功能是下载CSS文件中引用的图像.

是否有一个工具(用于Linux)将下载所有内容,以便网页将呈现相同的离线(不包括AJAX)？

html css image download

68
推荐指数

5
解决办法

6万
查看次数

刮整个网站

我正在寻找一个程序来提取和下载整个公司网站的建议.

该网站由一个已经停止工作的CMS提供支持并且修复它是昂贵的,我们能够重新开发该网站.

因此,我想将整个网站视为简单的html/css/image内容,并根据需要对其进行细微更新,直到新网站出现.

任何推荐？

html web-scraping

43
推荐指数

4
解决办法

5万
查看次数

从Rails导出静态HTML + CSS + JS

在创建静态应用程序时,我经常启动一个新的Rails应用程序这使得一些事情变得更容易,例如编译(Coffeescript,SCSS),最小化(JS,CSS)和浏览器限制(页面从localhost:3000提供,因此可以加载外部源等).

最后我想导出应用程序,以便我可以将它放在网上.然后我只需要HTML + CSS + JS.人们可以手动取出文件,但可能有一种更简单的方法.

那么:有没有一个工具可以存储Rails应用程序中编译的,最小化的HTML + CSS + JS文件？

javascript gem ruby-on-rails toolchain coffeescript

11
推荐指数

2
解决办法

4266
查看次数

如何使用python 3下载网站？

只是一个http获取请求,如php中的file_get_contents,或者是一些简单的输入URL的内容,它将内容变为变量.

python python-3.x

10
推荐指数

1
解决办法

1万
查看次数

检索完整的网页，包括动态加载的链接/图像

问题

下载动态加载链接/图像的网站的完整工作离线副本

研究

Stackoverflow 上有一些问题（例如[1]、[2]、[3]）解决了这个问题，其中大多数都使用wget或httrack得到了最佳答案，但这两个问题都惨遭失败（如果我错了，请纠正我）在动态加载链接或使用srcset而不是srcforimg标签或通过 JS 加载的任何内容的页面上。一个相当明显的解决方案是Selenium，但是，如果您曾经在生产中使用过 Selenium ，您很快就会开始看到这种决定所带来的问题（资源繁重，使用全头驱动程序相当复杂，事实上它不是为那），话虽这么说，有人声称多年来一直在生产中轻松使用它

预期解决方案

一个脚本（最好是Python），用于解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以做到这一点。如果您的解决方案是“因此实现您自己的”，那么首先提出这个问题是毫无意义的，我正在寻求现有的实现。

例子

Shopify.com
使用 Wix 构建的网站

python selenium wget web-scraping httrack

5
推荐指数

1
解决办法

1407
查看次数

标签统计

html ×2

web-scraping ×2

coffeescript ×1

css ×1

gem ×1

ruby-on-rails ×1

wget ×1