复制网站并保留文件和文件夹结构

Question

复制网站并保留文件和文件夹结构

我有一个运行在旧版 Oracle Portal 上的旧网站，我们需要将其转换为平面 html 结构。由于服务器损坏，我们无法访问管理界面，即使可以访问，也没有可以与现代软件版本一起使用的导出功能。

抓取网站并将所有页面和图像保存到文件夹中就足够了，但需要保留文件结构；也就是说，如果一个页面位于http://www.oldserver.com/foo/bar/baz/mypage.html那么它需要保存到 /foo/bar/baz/mypage.html 以便各种 Javascript位将继续发挥作用。

我发现的所有网络爬虫都无法做到这一点。他们都想重命名页面（page01.html、page02.html 等）并破坏文件夹结构。

是否有任何爬虫可以重新创建站点结构，就像访问站点的用户所看到的那样？不需要重做页面的任何内容；重新托管后，所有页面都将使用与最初相同的名称，因此链接将继续有效。

Answer 1

use*_*348 5

wget -r 将递归获取整个网站并将其全部保存在本地相同的结构中。

归档时间：	15 年，3 月前
查看次数：	6972 次
最近记录：	15 年，3 月前