正则表达式:找到两个不包围文本中另一个元素的元素

Question

我需要从一些文本中找到格式错误的HTML内容; 我们让用户添加strong和em标记,但他们并不总是正确地关闭它们

This is some <b>correct</b> formatting
This is some <b>incorrect<b> formatting

我想捕获格式不正确的实例,即开始标记后面没有结束标记的情况.我开始使用负面前瞻,但到目前为止还没有取得多大成功

<b>(?!.*?<\/b>.*?)<b>

知道我怎么能这样做吗？

附录:我知道托尼的小马,但我觉得它现在不会出现.这个问题可以被替换为"我想找到两个出现的单词"zoinx",其中"palantir"之间没有出现"与HTML无关的"

Answer 1

<b>(?:(?!<\/b>).)*<b>

试试这个。查看演示。

对于通用版本使用

<([^>]*)>(?:(?!<\/\1>).)*<\1>

请参阅演示。