我正在使用CURL下载页面.现在我想从页面中提取这个:
<object classid="clsid:67DABFBF-D0AB-41fa-9C46-CC0F21721616" width="640"
height="303.33333333333"
codebase="http://go.divx.com/plugin/DivXBrowserPlugin.cab"
id="object701207571">
<param name="autoPlay" value="false" />
<param name="custommode" value="Stage6" />
<param name="src" value="" />
<param name="movieTitle" value="Titanic" />
<param name="bannerEnabled" value="false" />
<param name="previewImage"
value="http://stagevu.com/img/thumbnail/oripmqeqzrccbig.jpg" />
<embed type="video/divx" src="" width="640" height="303.33333333333"
autoPlay="false" custommode="Stage6" movieTitle="Titanic"
bannerEnabled="false"
previewImage="http://stagevu.com/img/thumbnail/oripmqeqzrccbig.jpg"
pluginspage="http://go.divx.com/plugin/download/"
id="embed701207571">
</embed>
</object>
Run Code Online (Sandbox Code Playgroud)
请帮忙!
这部分是为了回应Owens (因为我不能很好地将代码放在评论中).该正则表达式可能不适用于object标记,主要是因为开始<object>标记中包含属性.试试这个:
/(<object[^>]*>)(.*?)(<\/object>)/si
Run Code Online (Sandbox Code Playgroud)
它不区分大小写并分为三组,以便于参考.这不是100%完美,但应该有所帮助.