正文从网站提取文本例如仅提取文章标题和文本而不是网站中的所有文本

Question

我正在寻找允许从网站提取文本的算法.我不是指"strip html",或者是数百个允许这样做的库中的任何一个.

因此,例如,对于新闻文章,我想确定标题和所有文本,但不是评论部分等等.

那里有算法吗？谢谢!

Answer 1

在计算机科学文献中,这个问题通常被称为页面分割或锅炉板检测问题.请参阅报告使用浅文本功能的Boilerplate Detection及其相关博客文章.此外,我有一些书签和软件网站,以解决问题.另外,请参阅此 stackoverflow问题.