复制网站并保留文件和文件夹结构

DrS*_*ker 1 web web-crawler

我有一个运行在旧版 Oracle Portal 上的旧网站,我们需要将其转换为平面 html 结构。由于服务器损坏,我们无法访问管理界面,即使可以访问,也没有可以与现代软件版本一起使用的导出功能。

抓取网站并将所有页面和图像保存到文件夹中就足够了,但需要保留文件结构;也就是说,如果一个页面位于http://www.oldserver.com/foo/bar/baz/mypage.html那么它需要保存到 /foo/bar/baz/mypage.html 以便各种 Javascript位将继续发挥作用。

我发现的所有网络爬虫都无法做到这一点。他们都想重命名页面(page01.html、page02.html 等)并破坏文件夹结构。

是否有任何爬虫可以重新创建站点结构,就像访问站点的用户所看到的那样?不需要重做页面的任何内容;重新托管后,所有页面都将使用与最初相同的名称,因此链接将继续有效。

use*_*348 5

wget -r 将递归获取整个网站并将其全部保存在本地相同的结构中。