从网页中提取*相关*图像

mit*_*hun 8 html parsing image-extraction

我有几个Twitter推动的新闻聚合网站.我一直在计划添加我在twitter上找到的文章中的图像.

如果我下载页面并使用<img>标签提取图像,我会得到一堆图像; 并非所有这些都与文章相关.例如,捕获按钮,图标,广告等的图像.如何提取文章附带的图像?我知道有一个解决方案 - Facebook链接共享器做得非常好.

大额牛

重复:如何在网站中查找和提取"主要"图像

Toa*_*oad 7

从页面下载所有图像,将来自广告服务器的所有图像列入黑名单.然后找一些启发式,它会给你正确的图像......

我想是这样的:

  • 最大分辨率+ = 5pts
  • 最大文件大小+ = 10分
  • Jpeg + = 2分

然后拍摄最多点的图像并将其余部分扔掉

可能适用于大多数网站.

(虽然需要一些摆弄启发式方法)


Pus*_*rma 5

已经很久了。但这下次可能会有所帮助。

您可以使用此 API https://urlmeta.org/

它使用起来非常简单,而且结果是我们需要的最好的。

使用API​​的示例:

<?php
$url = "http://timesofindia.indiatimes.com/business/india-business/Raghuram-Rajan-not-fit-to-be-RBI-Governor-Subramanian-Swamy/articleshow/52236298.cms";

$result = file_get_contents('https://api.urlmeta.org/?url='.$url);
$array = json_decode($result,1);
print_r($array['meta']['image']);

?>
Run Code Online (Sandbox Code Playgroud)

这就是您需要的结果。

  • urlmeta.org 非常酷。适用于几乎所有电子商务产品页面。 (2认同)