标签: webarchive

使用 wget 或 httrack 镜像存档网站时遇到问题

我正在尝试使用 wget 创建网站的本地镜像。但我发现我没有得到所有的链接页面。

这是网站

http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/

我不想要所有以 开头的页面web.archive.org,但我想要所有以 开头的页面http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/

当我使用时wget -r,在我的文件结构中我发现

web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html,
Run Code Online (Sandbox Code Playgroud)

但我没有属于这个数据库的所有文件,例如

web.archive.org/web/20110808041151/http://cst-www.nrl.navy.mil/lattice/struk/d0c.html.
Run Code Online (Sandbox Code Playgroud)

也许 httrack 会做得更好,但现在这太过分了。

那么,通过什么方式可以从Internet Archive Wayback Machine获取存档网站的本地副本

linux wget httrack webarchive

17
推荐指数
4
解决办法
1万
查看次数

从 Web 存档 (.warc) 中提取文件

我正在对许多网站进行存档,以便保留其中的许多链接文件,特别是一些 PDF。

我在使用 Heritrix 爬虫收集网站时没有遇到任何问题。但是我还没有找到从这些文件中提取文件的好解决方案.warc

有没有人有这方面的经验,或者有一种首选方法来获取这些单独的文件?

website archiving webarchive

12
推荐指数
2
解决办法
3万
查看次数

关闭后如何从网站恢复数据?

背景:Twitch 有一个名为 Twitch Sings 的卡拉 OK 服务,该服务于去年 12 月关闭。它由 Harmonix 开发,Harmonix 是创建吉他英雄和摇滚乐队的同一个工作室,这就是为什么有关它的信息值得保留的原因。我试图找到一个最终的歌曲列表,但与完整信息的唯一页面是此页,已被停用:https://songlist.sings.twitch.tv/
存档版本:HTTPS://web.archive。 org/web/20201202061659/https://songlist.sings.twitch.tv/

问题:当通过archive.org 查看页面时,它似乎打算从数据库中提取以填充页面。但是,存档版本显示不正确。它将访问数据库并显示以数字或 A 开头的艺术家的歌曲,但接下来不是显示 B,而是循环返回并一次又一次地显示 A。我尝试在 Chrome、Firefox 和 Edge 中打开它,结果相同。

有没有办法通过直接访问数据库来完全绕过存档页面?或者可以通过打开页面源来编辑代码,使其在浏览器中正确显示?有没有其他方法可以让我检索信息?我真的没有太多的编码经验。

browser google-chrome website archiving webarchive

7
推荐指数
2
解决办法
4291
查看次数

标签 统计

webarchive ×3

archiving ×2

website ×2

browser ×1

google-chrome ×1

httrack ×1

linux ×1

wget ×1