有关如何识别页面主要内容的任何想法?

And*_*rew 8 html web-scraping

如果您必须识别页面的主要文本(例如在博客页面上标识帖子的内容),您会做什么?您认为最简单的方法是什么?

  1. 使用cURL获取页面内容
  2. 也许使用DOM解析器来识别页面的元素

小智 7

这是一项非常艰巨的任务,但我首先要计算DOM元素中的空间.人类可读内容的告诉标志是空格和句点.大多数文章似乎都将内容封装在段落标记中,因此您可以查看所有带有n个空格和至少一个标点符号的p标记.

您还可以在元素中使用分组段落标记的数量.因此,如果div具有N个段落子项,则很可能是您想要提取的内容.


yur*_*ura 6

有一些框架可以存档,其中一个是http://code.google.com/p/boilerpipe/,它使用了一些统计信息.一些可以检测主要内容的html块的功能:

  1. p,div标签
  2. 内/外的文字数量
  3. 内/外链接量(即删除munus)
  4. 一些css类名和id(通常这些块有main或main_block,内容等的类或id)
  5. 内容中的标题和文本之间的关系