wxs*_*wxs 12 website archiving webarchive
我正在对许多网站进行存档,以便保留其中的许多链接文件,特别是一些 PDF。
我在使用 Heritrix 爬虫收集网站时没有遇到任何问题。但是我还没有找到从这些文件中提取文件的好解决方案.warc。
有没有人有这方面的经验,或者有一种首选方法来获取这些单独的文件?
| 归档时间: |
|
| 查看次数: |
28241 次 |
| 最近记录: |