正则表达式识别HTML标签(仅作为正则表达式重复学习练习!!)

Question

我对正则表达式非常新.我设法不用长达10英尺的杆子触碰它.到目前为止,我尽力避免它.但现在个人项目正在推动我学习它.

所以我开始了.我正在阅读这里的教程:http://www.regular-expressions.info/tutorial.html

我的问题是:

该教程说<[A-Za-z][A-Za-z0-9]*>将匹配HTML标记.

但它不会匹配无效的html标签,如 - <h11>或<h111>？它如何匹配结束标签？

编辑 - 我的问题非常具体.我指的是一个特定教程中的一个特定示例,以澄清我对重复的理解是否正确.再说一遍,我重复一遍,我不关心使用正则表达式进行html解析.

Answer 1

在回答您的问题时,我认为您在尝试学习正则表达式时没有任何伤害:

1)是的,它也会匹配无效标签,因为它是任何字母后面跟着另一个字母或数字的零或多个匹配.

2)它不会与结束标签匹配(必须/在那里搜索某个地方).

还有一条评论:人们过去习惯在文档中查找html标签的方法是查找开括号和右括号的模式,如下所示:

<\/?[^>]*>

这是打开支架,可选的斜线,(什么,但右括号)-repeated,然后一个右括号.当然,我不建议任何人这样做.它只是留在这里作为练习.