有关如何识别页面主要内容的任何想法？

Question

如果您必须识别页面的主要文本(例如在博客页面上标识帖子的内容),您会做什么？您认为最简单的方法是什么？

Answer 1

这是一项非常艰巨的任务,但我首先要计算DOM元素中的空间.人类可读内容的告诉标志是空格和句点.大多数文章似乎都将内容封装在段落标记中,因此您可以查看所有带有n个空格和至少一个标点符号的p标记.

您还可以在元素中使用分组段落标记的数量.因此,如果div具有N个段落子项,则很可能是您想要提取的内容.

Answer 2

有一些框架可以存档,其中一个是http://code.google.com/p/boilerpipe/,它使用了一些统计信息.一些可以检测主要内容的html块的功能: