我对正则表达式非常新.我设法不用长达10英尺的杆子触碰它.到目前为止,我尽力避免它.但现在个人项目正在推动我学习它.
所以我开始了.我正在阅读这里的教程:http://www.regular-expressions.info/tutorial.html
目前我在这里:http://www.regular-expressions.info/repeat.html
我的问题是:
该教程说<[A-Za-z][A-Za-z0-9]*>将匹配HTML标记.
但它不会匹配无效的html标签,如 - <h11>或<h111>?它如何匹配结束标签?
编辑 - 我的问题非常具体.我指的是一个特定教程中的一个特定示例,以澄清我对重复的理解是否正确.再说一遍,我重复一遍,我不关心使用正则表达式进行html解析.
在回答您的问题时,我认为您在尝试学习正则表达式时没有任何伤害:
1)是的,它也会匹配无效标签,因为它是任何字母后面跟着另一个字母或数字的零或多个匹配.
2)它不会与结束标签匹配(必须/在那里搜索某个地方).
还有一条评论:人们过去习惯在文档中查找html标签的方法是查找开括号和右括号的模式,如下所示:
<\/?[^>]*>
Run Code Online (Sandbox Code Playgroud)
这是打开支架,可选的斜线,(什么,但右括号)-repeated,然后一个右括号.当然,我不建议任何人这样做.它只是留在这里作为练习.