Sco*_*oox 8 algorithm text text-extraction web-scraping
我正在寻找允许从网站提取文本的算法.我不是指"strip html",或者是数百个允许这样做的库中的任何一个.
因此,例如,对于新闻文章,我想确定标题和所有文本,但不是评论部分等等.
那里有算法吗?谢谢!
在计算机科学文献中,这个问题通常被称为页面分割或锅炉板检测问题.请参阅报告使用浅文本功能的Boilerplate Detection及其相关博客文章.此外,我有一些书签和软件网站,以解决问题.另外,请参阅此 stackoverflow问题.