正则表达式需要匹配p标签内的任何内容

Question

我需要一个正则表达式来匹配标签内的任何内容,例如,如果我有一些文本:

<p>Hello world</p>

正则表达式将匹配Hello world部分

Answer 1

在javascript中:

var str = "<p>Hello world</p>";
str.search(/<\s*p[^>]*>([^<]*)<\s*\/\s*p\s*>/)

在PHP中:

$str = "<p>Hello world</p>";
preg_match_all("/<\s*p[^>]*>([^<]*)<\s*\/\s*p\s*>/", $str);

这些将匹配像这样复杂的东西

< p style=  "font-weight: bold;" >Hello world  <  /  p >

Answer 2

看来上述提出的解决方案要么会失败：

考虑使用这个正则表达式：

<p(|\s+[^>]*)>(.*?)<\/p\s*>

生成的文本将在组 2 中捕获。

显然，每当关闭标签由于某种原因包含在注释标签中时，此解决方案将无法正常工作 ... 

Answer 3

编辑:不要这样做.只是不要.

如果你坚持,使用(.+?),结果将在第一组.它并不完美,但HTML解析问题的regexp解决方案永远都不会.

例如(在python中)

>>> import re
>>> r = re.compile('<p>(.+?)</p>')
>>> r.findall("<p>fo o</p><p>ba adr</p>")
['fo o', 'ba adr']