对于网站列表,如果它们在那一年的任何时候存档,我想要按年份索引页面.所以,如果我在看example1.com和example2.com,我希望能够得到:
2010: example1.com, example2.com (the html from these archived pages)
2011: example1.com (example2.com, say, was not archived in 2011)
2012: example2.com
2013: example1.com, example2.com
Run Code Online (Sandbox Code Playgroud)
等等.
这是否可以使用Wayback Machine API?我看了他们的API列表,似乎我不能做我想做的事情.也许我错过了一些东西,但它似乎是一个相当合理的用例.还有其他建议吗?
他们理解Wayback Machine API的关键是有(从我能说的)三种不同的方式来处理它们.
第一个是在您已经提到的Wayback Machine API页面顶部附近记录的API.
该API为给定页面上的存档提供了日期最接近的结果.因此,您可以查看Wayback Machine,查看在新年当天存档的Google主页的副本,如下所示:
http://archive.org/wayback/available?url=google.com×tamp=20080101 http://archive.org/wayback/available?url=google.com×tamp=20090101 http://archive.org/wayback/available? url = google.com×tamp = 20100101 等.
使用这些URL中返回的信息,您可以以编程方式轻松下载内容.
接下来我们有Wayback Machine CDX Server API,它展示了更丰富的一系列接口.最值得注意的是,您可以快速下载您感兴趣的URL的每个快照:
http://web.archive.org/cdx/search/cdx?url=www.fredtrotter.com
最后,我们拥有了Wayback Machine Memento API的深层而神秘的资源.这个链接是关于功能的博客文章,但从我可以获得的,这是关于在协议级别使用Wayback机器,其中Mememnto协议是存档站点应该运行的方式经过深思熟虑的版本.
在任何情况下,请温柔和尊重您的脚本.Wayback Machine API目前不需要凭证,这是一种非常慷慨和开放的姿态,一般与互联网档案馆作为"虚拟世界的奇迹"的角色保持一致.所以不要滥用它,因为这是我们确保我们拥有美好事物的方式.
感谢Greg和Wayback Machine团队的其他成员,感谢您为保持互联网成为个人自由和表达的源泉所做的出色工作.
我们的 CDX API 允许您进行 2 个单独的调用,以获取 url 或域 example1.com 和 url 或域 example2.com 的所有捕获的列表。然后,您可以生成您喜欢的任何摘要。