从网页中提取"最佳"图像的技术

Edd*_*ker 9 share facebook image extraction

我正在尝试为我的网站构建类似于Facebook的"共享"功能.

我已经到了可以接受URL的地步,抓取元关键字并适当地获取标题/描述,但我有点卡住了确定用户可能想要分享的"可能"照片的最佳方式.

我目前使用SimpleXMLElement将页面转换为可遍历的DOM,并找到所有标记,将它们转换为绝对URL.在那之后,我不确定如何找到合适的缩略图.

我是否全部下载它们,并按文件大小排序?我是否使用某种启发式方法,"在页面中间遇到"?

有没有其他人有任何建议,建议或提示?

nat*_*ere 7

我刚才写了类似的东西,以便从博客文章中获取图片.我选择图像的标准类似于获取页面上所有图像的列表然后分配"优先级点":

  • 忽略从AdBlocker列表中获取的黑名单托管的图像
  • 忽略间接图像,例如链接到样式表或IFRAME
  • 忽略50像素宽或高的图像
  • 忽略不止一次重复的图像
  • 为从主机白名单托管的图像分配优先级点(例如photobucket,imageshack.us)
  • 将优先级点分配给页面上最大的3个图像
  • 为同一主机上的图像分配优先级点
  • 为定义了ALT标记的图像指定优先级点
  • 为P标签中出现的图像指定优先级点

然后选择优先级最高的那个.它当然不是万无一失或过于科学,但它经常得到有用的东西.