Dev*_*555 6 javascript php screen-scraping web
怎样的Evernote的网页剪插件或Announcify插件只得到网页的相关文章/后/内容的一部分?这是evernote插件的截图:

无论您访问哪个网站与其他布局都完全不同,这些网站始终能够为您提供文章/帖子/内容部分.
每个网站都有不同的布局,有些有侧栏,有些没有,不同的标签,主要/文章/内容部分,一些使用<article>或<section>HTML5其他人使用<h1> > <p>,一些使用<h2> > <p>和其他根本不使用.因此,有不同的标签组合以及网站的布局.
有人可以通过Javascript或PHP 建议获得主要文章/帖子/内容的解决方案吗?
您可以进行简单的DOM解析并搜索包含更多文本的<div>s和<p>s(文本!而不是HTML代码!).但是,无论您选择哪种智能方法来确定内容的位置,都应该从DOM解析开始,所以让我们看一下DOM解析PHP库.
无论如何,你可以从这开始:
http://w-shadow.com/blog/2008/01/25/extracting-the-main-content-from-a-webpage/
看起来相当不错,如果你想写自己的东西,给出技术解释.
| 归档时间: |
|
| 查看次数: |
1178 次 |
| 最近记录: |