如何解析HTML/XML并从中提取信息?
试图在页面上找到链接.
我的正则表达式是:
/<a\s[^>]*href=(\"\'??)([^\"\' >]*?)[^>]*>(.*)<\/a>/
Run Code Online (Sandbox Code Playgroud)
但似乎失败了
<a title="this" href="that">what?</a>
Run Code Online (Sandbox Code Playgroud)
我如何更改我的正则表达式来处理未首先放在标签中的href?
对于我的网站,我想添加一个新功能.
我希望用户能够上传他的书签备份文件(如果可能的话,从任何浏览器上传),这样我就可以将其上传到他们的个人资料中,而且他们不必手动插入所有这些文件...
这是我唯一缺少这样做的部分,它是从上传的文件中提取标题和URL的部分..任何人都可以提供线索从何处开始或在哪里阅读?
使用搜索选项和(如何从原始html文件中提取数据)这是我最相关的问题,它没有谈论它..
我真的不介意它是否使用jquery或php
非常感谢你
php ×3
html ×2
dom ×1
html-parsing ×1
hyperlink ×1
parsing ×1
string ×1
web-crawler ×1
xml ×1
xml-parsing ×1