从链接创建摘要

Rol*_*and 5 web-scraping

许多页面(facebook,google +等)具有创建带有标题,图像和链接中某些文本的摘要的功能。我试图找出是否有任何库或指南有关如何执行这种功能,但是我的搜索结果根本没有帮助。

我知道我可以解析页面的html并提取我想要的元素,但是我认为在执行此操作时应该有某种标准(也许还有如何创建对这种功能友好的页面)。

有一个好的链接可以为我指明正确的方向吗?Java或.Net是我首选的选择,但我也可以自己实现。

For*_*ega 1

对于“也许还如何创建对这种功能友好的页面”。部分:
您可能正在寻找开放图协议

<html xmlns:og="http://ogp.me/ns#">
<head>
<title>The Rock (1996)</title>
<meta property="og:title" content="The Rock" />
<meta property="og:type" content="movie" />
<meta property="og:url" content="http://www.imdb.com/title/tt0117500/" />
<meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" />
...
</head>
...
</html>
Run Code Online (Sandbox Code Playgroud)

我认为这是 facebook 会首先关注的地方。但 Facebook 似乎有自己的算法,可以在这些标签丢失时检测页面最相关的部分。