读取新闻文章的实际内容并忽略页面上的"噪音"的算法?

The*_*att 5 .net c# algorithm parsing text

我正在寻找一种算法(或其他技术)来阅读网站上新闻文章的实际内容,并忽略页面上的任何其他内容.简而言之,我正在以谷歌新闻编程方式阅读RSS源.我有兴趣刮取基础文章的实际内容.在我的第一次尝试中,我有来自RSS提要的URL,我只是按照它们从该页面抓取HTML.这显然导致了许多"噪音",无论是HTML标签,标题,导航等.基本上所有与文章的实际内容无关的信息.

现在,我理解这是一个非常难以解决的问题,理论上它涉及为每个网站编写一个解析器.我感兴趣的是一种算法(我甚至满足于一个想法)关于如何最大化我在下载文章时看到的实际内容并最大限度地减少噪音.

另外两点说明:

  • 刮HTML是我尝试的第一次尝试.我不卖,这是做事的最佳方式.
  • 我不想为我遇到的每个网站编写解析器,我需要接受谷歌通过RSS提供的任何东西的不可预测性.
  • 我知道我最终得到的任何算法都不会是完美的,但我对最好的解决方案感兴趣.

有任何想法吗?

Chr*_*nce 2

当在 RSS 阅读器之外阅读新闻时,我经常使用Readability来过滤除文章内容以外的所有内容。它是基于 Javascript 的,因此该技术不会直接应用于您的问题,但根据我的经验,该算法的成功率很高,值得一看。希望这可以帮助。