从 Web 存档 (.warc) 中提取文件

Question

我正在对许多网站进行存档，以便保留其中的许多链接文件，特别是一些 PDF。

我在使用 Heritrix 爬虫收集网站时没有遇到任何问题。但是我还没有找到从这些文件中提取文件的好解决方案.warc。

有没有人有这方面的经验，或者有一种首选方法来获取这些单独的文件？

Answer 1

您可以使用Webarchive Player浏览 WARC并从浏览器中保存所需的文件。或者，将 WARC 上传到webrecorder.io并在那里浏览/下载。

Answer 2

我之前使用过 7-Zip 从 Web Archive 格式的文件中提取单个文件或整个档案。

它可以从他们的网站上获得。