为什么正则表达式与XML元素不匹配?

Fra*_*ery 6 regex xml language-agnostic

文章认为,正则表达式无法比拟的嵌套结构,因为正则表达式是有限自动机.

然后,他提供了一个问题列表,其中答案表明使用正则表达式无法解决以下问题:

  1. 匹配XML元素
  2. 匹配C/VB/C#数学表达式
  3. 匹配有效的正则表达式

因为2和3可以想象包含括号; 这种嵌套对于正则表达式是无法解决的.但为什么不能匹配XML元素?(他没有举例).

ale*_*lex 3

如果您事先知道要匹配的标签,则可以匹配 HTML 标签的有限子集。

您无法(可靠或良好地)解析任意 HTML。它不是一种常规语言。