只获取网站的相关部分

Dev*_*555 6 javascript php screen-scraping web

怎样的Evernote的网页剪插件Announcify插件只得到网页的相关文章/后/内容的一部分?这是evernote插件的截图:

在此输入图像描述

无论您访问哪个网站与其他布局都完全不同,这些网站始终能够为您提供文章/帖子/内容部分.

每个网站都有不同的布局,有些有侧栏,有些没有,不同的标签,主要/文章/内容部分,一些使用<article><section>HTML5其他人使用<h1> > <p>,一些使用<h2> > <p>和其他根本不使用.因此,有不同的标签组合以及网站的布局.

有人可以通过Javascript或PHP 建议获得主要文章/帖子/内容的解决方案吗?

lor*_*o-s 7

您可以进行简单的DOM解析并搜索包含更多文本的<div>s和<p>s(文本!而不是HTML代码!).但是,无论您选择哪种智能方法来确定内容的位置,都应该从DOM解析开始,所以让我们看一下DOM解析PHP库.

无论如何,你可以从这开始:

http://w-shadow.com/blog/2008/01/25/extracting-the-main-content-from-a-webpage/

看起来相当不错,如果你想写自己的东西,给出技术解释.