tse*_*lon 36 html php screen-scraping
我一直在使用正则表达式在PHP中进行一些HTML抓取.这有效,但结果是挑剔和脆弱.有没有人使用任何提供更强大解决方案的软件包?配置驱动的解决方案是理想的,但我不挑剔.
Esp*_*spo 28
从页面中删除HTML后,我会推荐PHP Simple HTML DOM Parser.它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素.
如果你正在抓取的页面是有效的X(HT)ML,那么任何PHP的内置XML解析器都可以.
我没有用PHP库进行抓取取得多大成功.如果你喜欢冒险,你可以试试simplehtmldom.我推荐用于Ruby的Hpricot或用于Python的Beautiful Soup,它们都是HTML的优秀解析器.
我还推荐'Simple HTML DOM Parser'.这是一个很好的选择,特别是如果您熟悉jQuery或JavaScript选择器,那么您会发现自己在家里.
| 归档时间: |
|
| 查看次数: |
43399 次 |
| 最近记录: |