创建伟大的解析器 - 从HTML /博客中提取相关文本

22 html parsing text-parsing html-content-extraction

我正在尝试创建一个在Blog Posts上运行良好的通用HTML解析器.我想将我的解析器指向特定的entrie的URL并获取帖子本身的干净文本.我的基本方法(来自python)一直使用BeautifulSoup/Urllib2的组合,这没关系,但它假设你知道博客条目的正确标签.有没有人有更好的想法?

以下是一些可能有人可以扩展的想法,我没有足够的知识/技术诀窍尚未实现.

  1. unix程序'lynx'似乎特别好地解析了博客文章 - 他们使用了什么解析器,或者如何利用它?

  2. 是否有任何服务/解析器可以自动删除垃圾广告等?

  3. 在这种情况下,我有一个模糊的概念,即博客帖子通常包含在某个带有class ="entry"或类似内容的定义标签中,这可能是一个好的假设.因此,有可能创建一个算法,找到它们之间最干净的文本的封闭标签 - 对此有何想法?

谢谢!

Ani*_*van 24

男孩,我有完美的解决方案吗?

Arc90的可读性算法就是这样做的.给定HTML内容,它会选择主要博客文章的内容,忽略页眉,页脚,导航等.

以下是实现:

我将在几天内向CPAN发布一个Perl端口.完成.

希望这可以帮助!