我有一个运行在旧版 Oracle Portal 上的旧网站,我们需要将其转换为平面 html 结构。由于服务器损坏,我们无法访问管理界面,即使可以访问,也没有可以与现代软件版本一起使用的导出功能。
抓取网站并将所有页面和图像保存到文件夹中就足够了,但需要保留文件结构;也就是说,如果一个页面位于http://www.oldserver.com/foo/bar/baz/mypage.html那么它需要保存到 /foo/bar/baz/mypage.html 以便各种 Javascript位将继续发挥作用。
我发现的所有网络爬虫都无法做到这一点。他们都想重命名页面(page01.html、page02.html 等)并破坏文件夹结构。
是否有任何爬虫可以重新创建站点结构,就像访问站点的用户所看到的那样?不需要重做页面的任何内容;重新托管后,所有页面都将使用与最初相同的名称,因此链接将继续有效。
归档时间: |
|
查看次数: |
6972 次 |
最近记录: |