我很想知道如何擦除html页面并很好地呈现它 - 删除所有杂乱的内容并将主文本重新格式化为一种非常易读的格式 - 如http://lab.arc90.com/experiments/readability或Instapaper的.
它是一个简单的页面解析和删除不在其中的元素
?
这是在其他地方讨论的吗?
可读性不是一个简单的解析器,它使用复杂的算法来只检索所需的组件,如果你不是编程的大师我会建议你使用下面突出显示的免费服务.
您可以通过可读性请求开发人员API(http://www.readability.com/publishers/api)
如果您请求解析器,它将完全按照您要实现的目标执行,即从站点中提取内容.请记住给他们足够的理由让您使用他们的API.
对其解析服务的查询将如下所示
https://www.readability.com/api/content/v1/parser?url= {url to be here here}}&token = {your api key here}
该请求将返回如下响应:
HTTP/1.0 200 OK {"domain":"blog.readability.com","作者":"Richard Ziade","url":"http://blog.readability.com/2011/02/step-up-是听到的可读性思路/",
Run Code Online (Sandbox Code Playgroud)"short_url": "http://rdd.me/kbgr5a1k", "title": "Step Up & Be Heard: Readability Ideas", "total_pages": 1, "word_count": 175, "content": "<div>\n \n<div class=\"entry\">\n\t<p>When we launched Readability [snip] ...</div>\n</div>", "date_published": "2011-02-22 00:00:00", "next_page_id": null, "rendered_pages": 1 }
对于那里的核心人员,从这里检查可读性nodeJS,ruby和python端口 http://arrix.blogspot.com/2010/11/server-side-readability-with-nodejs.html
快乐的编码
| 归档时间: |
|
| 查看次数: |
4358 次 |
| 最近记录: |