如何实现类似于Arc90的可读性或Instapaper的html页面清理器?

Teo*_*ing 3 html parsing

我很想知道如何擦除html页面并很好地呈现它 - 删除所有杂乱的内容并将主文本重新格式化为一种非常易读的格式 - 如http://lab.arc90.com/experiments/readability或Instapaper的.

它是一个简单的页面解析和删除不在其中的元素

这是在其他地方讨论的吗?

Edw*_*win 7

可读性不是一个简单的解析器,它使用复杂的算法来只检索所需的组件,如果你不是编程的大师我会建议你使用下面突出显示的免费服务.

您可以通过可读性请求开发人员API(http://www.readability.com/publishers/api)

如果您请求解析器,它将完全按照您要实现的目标执行,即从站点中提取内容.请记住给他们足够的理由让您使用他们的API.

对其解析服务的查询将如下所示

https://www.readability.com/api/content/v1/parser?url= {url to be here here}}&token = {your api key here}

该请求将返回如下响应:

HTTP/1.0 200 OK {"domain":"blog.readability.com","作者":"Richard Ziade","url":"http://blog.readability.com/2011/02/step-up-是听到的可读性思路/",

"short_url": "http://rdd.me/kbgr5a1k",
"title": "Step Up & Be Heard: Readability Ideas", 
"total_pages": 1, 
"word_count": 175, 
"content": "<div>\n  \n<div class=\"entry\">\n\t<p>When we launched Readability [snip] ...</div>\n</div>", 
"date_published": "2011-02-22 00:00:00", 
"next_page_id": null, 
"rendered_pages": 1 }
Run Code Online (Sandbox Code Playgroud)

对于那里的核心人员,从这里检查可读性nodeJS,ruby和python端口 http://arrix.blogspot.com/2010/11/server-side-readability-with-nodejs.html

快乐的编码