从网页中提取相关图像

mit*_*hun 8 html parsing image-extraction

我有几个Twitter推动的新闻聚合网站.我一直在计划添加我在twitter上找到的文章中的图像.

如果我下载页面并使用<img>标签提取图像,我会得到一堆图像; 并非所有这些都与文章相关.例如,捕获按钮,图标,广告等的图像.如何提取文章附带的图像？我知道有一个解决方案 - Facebook链接共享器做得非常好.

大额牛

重复:如何在网站中查找和提取"主要"图像

从页面下载所有图像,将来自广告服务器的所有图像列入黑名单.然后找一些启发式,它会给你正确的图像......

我想是这样的:

最大分辨率+ = 5pts
最大文件大小+ = 10分
Jpeg + = 2分

然后拍摄最多点的图像并将其余部分扔掉

可能适用于大多数网站.

(虽然需要一些摆弄启发式方法)

已经很久了。但这下次可能会有所帮助。

您可以使用此 API https://urlmeta.org/

它使用起来非常简单，而且结果是我们需要的最好的。

使用API的示例：

<?php
$url = "http://timesofindia.indiatimes.com/business/india-business/Raghuram-Rajan-not-fit-to-be-RBI-Governor-Subramanian-Swamy/articleshow/52236298.cms";

$result = file_get_contents('https://api.urlmeta.org/?url='.$url);
$array = json_decode($result,1);
print_r($array['meta']['image']);

?>

Run Code Online (Sandbox Code Playgroud)

这就是您需要的结果。

urlmeta.org 非常酷。适用于几乎所有电子商务产品页面。 (2认同)

归档时间：	15 年，7 月前
查看次数：	2002 次
最近记录：	9 年，8 月前

如何在网站中查找和提取"主要"图像 8

更多相关链接

使用HTML内容在TextView上进行额外填充 33

缩小PhoneGap App的代码？ 26

删除按钮上的3D推动效果 25

如何制作Upvote/Downvote按钮？ 24

反正有没有基于页面加载内容的textarea"autofit"高度？ 22

HTTP post:url参数和表单数据 20

Boost :: Spirit中的复合语法 4

如何使用Haskell解析器解析任意列表？ 4

由于超前令牌限制,转换/减少yacc中的冲突？ 3

使用 jq 对 JSON 中特定字段的值求平均值 2

在JavaScript中深度克隆对象的最有效方法是什么？ 5181

我怎么知道通过jQuery选择了哪个单选按钮？ 2583

在shell中,"2>&1"是什么意思？ 2121

如何格式化Microsoft JSON日期？ 1954

什么是控制倒置？ 1704

命令折叠代码的所有部分？ 1576

SQL Server中的LEFT JOIN与LEFT OUTER JOIN 1514

Promises和Observables有什么区别？ 1291

使用react路由器以编程方式导航 1251

jQuery document.createElement等价？ 1226