从新闻文章Web页面中提取主要内容(最高文本密度)

Sud*_*pta 6 java webpage text html-parsing

我想制作一个代码来从新闻网站中提取主要新闻.新闻网站包含主要新闻,广告,评论,版权声明,所以我想获得像samppipe一样的主要新闻,但我想知道如何做到这一点.

所以我希望获得有关如何完成这项工作的信息.

Sudhanshu

Chr*_*ter 8

boilerpipe网站包含源代码,快速入门说明,原始科学论文的链接以及相应的会议演示视频:

http://code.google.com/p/boilerpipe/

这应该为您提供一套非常全面的信息,说明其工作原理以及如何在您的方案中应用它.

最好,

基督教