刮擦网页的"预览" - Python

Rad*_*Hex 5 html python django screen-scraping

我正在索引链接列表,这些链接经常更新,所以我自动缩放网站的缩略图.

对于大多数网站而言,这很容易,因为我只是抓住页面上最大的图像,希望它描述内容.

但其他时候有视频作为页面的主要内容.


有人有处理这个的提示吗?那太好了!


关于使用Webkit创建屏幕截图,我发现了这一点

Wim*_*Wim 3

wkhtmltopdf使用 WebKit 渲染引擎的嵌入式副本(在 Safari、Chrome 等中使用)将网页保存为 PDF,包括所有图像(不过我猜没有 Flash 视频)。这可能是更准确的缩略图的起点。