HTML中的HTML Scraping

Question

我一直在使用正则表达式在PHP中进行一些HTML抓取.这有效,但结果是挑剔和脆弱.有没有人使用任何提供更强大解决方案的软件包？配置驱动的解决方案是理想的,但我不挑剔.

Answer 1

从页面中删除HTML后,我会推荐PHP Simple HTML DOM Parser.它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素.

建议实际使用[DOM](http://php.net/manual/en/book.dom.php)而不是String Parsing的[SimpleHtmlDom](http://simplehtmldom.sourceforge.net/)的第三方替代方案: [phpQuery](http://code.google.com/p/phpquery/),[Zend_Dom](http://framework.zend.com/manual/en/zend.dom.html),[QueryPath](http ://querypath.org/)和[FluentDom](http://www.fluentdom.org). (8认同)

Answer 2

如果你正在抓取的页面是有效的X(HT)ML,那么任何PHP的内置XML解析器都可以.

我没有用PHP库进行抓取取得多大成功.如果你喜欢冒险,你可以试试simplehtmldom.我推荐用于Ruby的Hpricot或用于Python的Beautiful Soup,它们都是HTML的优秀解析器.

Answer 3

我在使用htmlSQL时有一些乐趣,这不是一个高端解决方案,但使用起来非常简单.

Answer 4

我还推荐'Simple HTML DOM Parser'.这是一个很好的选择,特别是如果您熟悉jQuery或JavaScript选择器,那么您会发现自己在家里.