如何以编程方式访问Wayback Machine？

Question

如何以编程方式访问Wayback Machine？

我想做什么

对于网站列表,如果它们在那一年的任何时候存档,我想要按年份索引页面.所以,如果我在看example1.com和example2.com,我希望能够得到:

2010: example1.com, example2.com (the html from these archived pages)
2011: example1.com (example2.com, say, was not archived in 2011)
2012: example2.com
2013: example1.com, example2.com

Run Code Online (Sandbox Code Playgroud)

等等.

题

这是否可以使用Wayback Machine API？我看了他们的API列表,似乎我不能做我想做的事情.也许我错过了一些东西,但它似乎是一个相当合理的用例.还有其他建议吗？

Answer 1

ftr*_*ter 8

他们理解Wayback Machine API的关键是有(从我能说的)三种不同的方式来处理它们.

Wayback Availability JSON API

第一个是在您已经提到的Wayback Machine API页面顶部附近记录的API.

该API为给定页面上的存档提供了日期最接近的结果.因此,您可以查看Wayback Machine,查看在新年当天存档的Google主页的副本,如下所示:

http://archive.org/wayback/available?url=google.com×tamp=20080101 http://archive.org/wayback/available?url=google.com×tamp=20090101 http://archive.org/wayback/available？ url = google.com×tamp = 20100101 等.

使用这些URL中返回的信息,您可以以编程方式轻松下载内容.

Wayback CDX Server API

接下来我们有Wayback Machine CDX Server API,它展示了更丰富的一系列接口.最值得注意的是,您可以快速下载您感兴趣的URL的每个快照:

http://web.archive.org/cdx/search/cdx?url=www.fredtrotter.com

Memento API

最后,我们拥有了Wayback Machine Memento API的深层而神秘的资源.这个链接是关于功能的博客文章,但从我可以获得的,这是关于在协议级别使用Wayback机器,其中Mememnto协议是存档站点应该运行的方式经过深思熟虑的版本.

最后的想法

在任何情况下,请温柔和尊重您的脚本.Wayback Machine API目前不需要凭证,这是一种非常慷慨和开放的姿态,一般与互联网档案馆作为"虚拟世界的奇迹"的角色保持一致.所以不要滥用它,因为这是我们确保我们拥有美好事物的方式.

感谢Greg和Wayback Machine团队的其他成员,感谢您为保持互联网成为个人自由和表达的源泉所做的出色工作.

Answer 2

Gre*_*ahl 7

我们的 CDX API 允许您进行 2 个单独的调用，以获取 url 或域 example1.com 和 url 或域 example2.com 的所有捕获的列表。然后，您可以生成您喜欢的任何摘要。

归档时间：	10 年前
查看次数：	2376 次
最近记录：	7 年前