TIM*_*MEX 13 html parsing templates image
让我们说你给了http://nytimes.com 你会如何拉出"主要"形象?
我问的原因是因为Flipboard能够从网站上获取主图像,只需使用URL.
您可以解析出所有图像标记.但那又怎样?
Oll*_*ass 13
我不相信有一种标准的方法.您可以从寻找Open Graph Protocol图像标记开始.Facebook使用这些来为状态更新和评论中发布的网址选择图像.
<meta property="og:image" content="http://ia.media-imdb.com/rock.jpg"/>
Run Code Online (Sandbox Code Playgroud)
如果您准备使用第三方,Embedly会将此作为收费服务提供.
Embedly提供了一个功能强大的API,可将标准URL转换为218个领先提供商的嵌入式视频,图像和丰富的文章预览.
小智 10
有许多策略可以确定URL的"主要"图像:
我创建了一个JavaScript库,它使用大多数这些技术来确定URL的"主要"图片:ImageResolver.
实际上没有任何东西被认为是网页中的“主”图像——HTML 或其他方式中没有任何东西可以区分这一点。更不用说您可能必须读取 CSS 中的所有图像(或者更确切地说是背景图像等)。但如果我必须这样做,我会这样做:
首先,我会决定合适的图像尺寸,最小尺寸为 400x400。(我不想选择任何旧图像,非常小的东西可能会放大得可怕)
然后我会迭代页面上的每个图像。2。
对于我遇到的每张图像,我都会检查它的大小3。如果它是 400x400(我的预定义尺寸)或更大,我会使用此图像。如果不是,我会检查它是否是迄今为止我发现的最大的图像,如果是,则将其信息存储在一边。
一旦我已经检查了预定数量的图像
(对于参数,可以说 10,但肯定你可能会更高)我会使用我找到的最大图像(存储在侧面),因为我不想无限期地扫描页面寻找图像!
| 归档时间: |
|
| 查看次数: |
5339 次 |
| 最近记录: |