将webarchive转换为html

use*_*898 6 html extract webarchive

我设法将一个复杂网站的行为收集到一个webarchive中。此后,我想将该webarchive转换为一组html嵌套目录。但是,当我同时使用Waf和在Apple商店购买的商业软件进行此操作时,我得到的只是嵌套目录,底部带有html页面,没有图像,也没有CSS或工作链接。如果您对webarchive文档感兴趣,请访问:

http://www.miafoto.it/it/GiroMilano.webarchive

而提取的弱乘积为:

http://www.miafoto.it/it/Giromilano/Pagine/default.aspx

以及上面的空目录。除了外观不同外,Web归档文件还显示与官方网站相同的行为-选择列表框并按下按钮时-提取的版本会通过加载自身而不是官方页面来生成不包含任何内容的页面。您可能会看到,Web归档文件超过1MB,而提取文件仅超过1 KB。

它有什么问题,我如何才能完成如此看似微不足道的业务并获得可用的结果?

谢谢,

ale*_*sky 5

textutil -convert html example.webarchive
Run Code Online (Sandbox Code Playgroud)
  • 请注意-带有文件的html与webarchive在同一文件夹中创建!
  • 另外,我必须使用文本编辑器打开.html并替换“ file:///image.tiff”链接(将“ file:///”替换为“”),以便它们指向相对路径。
  • 另外,并非所有浏览器都显示.tiff图像。

谁知道我们有Stack Overflow Wiki

  • 不幸的是,textutil 破坏了原始的 HTML 结构,仅创建了视觉上相似的文档。如果要保留原始的 DOM 结构,则必须使用其他工具。 (2认同)

use*_*898 0

我通过查找页面中提交的所有参数并在我的脚本中也提交它们来解决这个问题,忽略网络存档。