如何解析HTML/XML并从中提取信息?
我需要匹配所有这些开始标记:
<p>
<a href="foo">
Run Code Online (Sandbox Code Playgroud)
但不是这些:
<br />
<hr class="foo" />
Run Code Online (Sandbox Code Playgroud)
我想出了这个,并希望确保我做对了.我只抓住了a-z.
<([a-z]+) *[^/]*?>
Run Code Online (Sandbox Code Playgroud)
我相信它说:
/,然后我有这个权利吗?更重要的是,你怎么看?
是否有适用于PHP的强大而成熟的HTML解析器?快速浏览PEAR并没有改变任何东西(很多类用于生成HTML,而不是用于消费),Google教会了我很多人已经开始然后放弃了各种解析器项目.
对XML解析器不感兴趣(除非那时可以使用非格式良好的HTML)或者使用正则表达式自己攻击它.
澄清意图:我对HTML内容的过滤不感兴趣,我很有兴趣从HTML文档中提取信息.
最近我发现自己经常使用jQuery和JavaScript,经常做我在使用CSS之前做的事情.
例如,我使用JavaScript/jQuery替换表行颜色或创建按钮和链接悬停效果.这可以接受吗?或者我应该继续使用CSS来做这些事情吗?
所以真正的问题是:当我使用太多jQuery时?当我越线时,我怎么能理解?
html ×2
html-parsing ×2
php ×2
css ×1
javascript ×1
jquery ×1
parsing ×1
regex ×1
xhtml ×1
xml ×1
xml-parsing ×1