从 Web 存档 (.warc) 中提取文件

wxs*_*wxs 12 website archiving webarchive

我正在对许多网站进行存档,以便保留其中的许多链接文件,特别是一些 PDF。

我在使用 Heritrix 爬虫收集网站时没有遇到任何问题。但是我还没有找到从这些文件中提取文件的好解决方案.warc

有没有人有这方面的经验,或者有一种首选方法来获取这些单独的文件?

小智 6

您可以使用Webarchive Player浏览 WARC并从浏览器中保存所需的文件。或者,将 WARC 上传到webrecorder.io并在那里浏览/下载。


小智 0

我之前使用过 7-Zip 从 Web Archive 格式的文件中提取单个文件或整个档案。

它可以从他们的网站获得。