如何从HTML中提取有意义的文本

Question

我想解析一个html页面并从中提取有意义的文本.有人知道一些好的算法吗？

我在Rails上开发我的应用程序,但我认为ruby在这方面有点慢,所以我认为如果在c中存在一些好的库,那么这是合适的.

谢谢!!

PD:请不要用java推荐任何东西

更新:我找到了这个链接文本

可悲的是,在python中

Answer 1

使用Nokogiri,它是快速的,用C语言编写,用于Ruby.

(使用regexp来解析像HTML这样的递归表达式是非常困难且容易出错的.我不会走这条路.我只在答案中提到这个问题,因为这个问题似乎一再出现.)

使用像上面提到的Nokogiri这样的真正的解析器,您还可以获得保留HTML文档的结构和逻辑的额外好处,有时您确实需要这些线索.