wget:遵循自定义 URL 属性

Lyu*_*riv 6 wget

wget 是制作小型站点快速快照的绝佳工具。据我所知(我真的希望我只是在 中找不到它wget --help), wget 只能遵循众所周知的 HTML URL 属性,例如<a href=...<img src=...等等。但是,有时特定站点可能会使用表示真实 URL 的非标准属性,这些属性看起来不像 wget 的 URL。比方说,如果一个站点有一个带有缩放图像的“静态”画廊,一个特定的图像页面可能有这样的内容:

<div zoomed_img="/gallery/image.jpg">
    <img src="/gallery/image_small.jpg"/>
</div>
Run Code Online (Sandbox Code Playgroud)

因此, wget 忽略zoomed_img带有的属性/gallery/image.jpg。我的 wget 命令是:

wget --recursive \
    --domains domain \
    --no-parent \
    --page-requisites \
    --no-clobber \
    --html-extension \
    --convert-links \
    http://domain/gallery
Run Code Online (Sandbox Code Playgroud)

是否可以让 wget 遵循自定义 URL HTML 属性?

Lek*_*eyn 5

wget(至少 1.16.3)不允许用户指定自定义属性。有人建议--follow-tags使用类似 的语法扩展该选项--follow-tags=a/href,但没有人跟进。

如果您不介意对 wget 应用快速 hack 来支持您的场景,请参阅此提交以了解添加自定义标签或属性所需的工作。

或者,您可以自己编写一个后处理器。