如何解析HTML/XML并从中提取信息?
什么内置的PHP函数对Web抓取有用?有什么好的资源(网络或打印),以加快使用PHP进行网络抓取的速度?
可能重复:
PHP中的HTML Scraping
我想知道是否有任何方法可以从网页获取一个特定的文本字符串,每次都会使用PHP进行更新.我搜索"遍布互联网"并没有找到任何结果.刚刚看到preg_match可以做到,但我不明白如何使用它.
想象一个网页包含这个:
<div name="changeable_text">**GET THIS TEXT**</div>
Run Code Online (Sandbox Code Playgroud)
在用过file_get_contents将页面放入变量后,如何使用PHP ?
提前致谢 :)
我正在尝试相互显示两个网站的内容,有人建议我使用 RSS 阅读器,但我的问题是:
除了使用 rss 之外,我还有什么可以尝试显示内容!?
我以为我可以连接到另一个网站的数据库,但这不起作用/
提前致谢
如何使用php获取HTML页面的标题?我已经制作了一个php网络抓取工具,我想在我的抓取工具中实现此功能,以便它具有页面名称和网址.提前致谢.可能使用preg_match.
我正试图抓取一些HTML(经作者许可).我正在使用这里建议的PHP库,它运行良好,直到我遇到一个如下所示的链接:
<a href="javascript:__doPostBack('dgItem$_ctl2$_ctl0','')">
Run Code Online (Sandbox Code Playgroud)
我认为这是一些asp.net的事情.当我点击它时,它不会改变URL,它只是将一些新内容加载到页面中,我也想抓一下.
我怎么能绕过这个?
我想我需要模拟点击,但在处理原始HTML时我不能这样做,我需要某种浏览器/ JS解释器,不是吗?
是否有更适合此任务的库?我不仅限于PHP,但它是首选.
php ×6
html ×3
database ×1
html-parsing ×1
parsing ×1
syndication ×1
title ×1
web-scraping ×1
xml ×1
xml-parsing ×1