如何仅获取给定的捕获组 <regex> C++

Question

如何仅获取给定的捕获组 <regex> C++

我想提取标签的内部内容。来自以下字符串：

<tag1 val=123>Hello</tag1>

Run Code Online (Sandbox Code Playgroud)

我只想得到

Hello

Run Code Online (Sandbox Code Playgroud)

我做什么：

string s = "<tag1 val=123>Hello</tag1>";
regex re("<tag1.*>(.*)</tag1>");
smatch matches;
bool b = regex_match(s, matches, re);

Run Code Online (Sandbox Code Playgroud)

但它返回两个匹配项：

<tag1 val=123>Hello</tag1>
Hello

Run Code Online (Sandbox Code Playgroud)

当我尝试只获取第一个捕获组时，如下所示：

"<tag1.*>(.*)</tag1>\1"

Run Code Online (Sandbox Code Playgroud)

我得到零匹配。

请指教。

Answer 1

Wik*_*żew 5

仅返回regex_match 单个匹配项，以及所有捕获组子匹配项（它们的数量取决于模式中有多少组）。

在这里，您仅获得 1 个包含两个子匹配的匹配：1) 整个匹配，2) 捕获组 1 值。

要获取捕获组的内容，您需要访问smatches对象第二个元素，matches[1].str()或者matches.str(1)

请注意，当您编写时"<tag1.*>(.*)</tag1>\1"，\1 不会被解析为反向引用，而是被解析为带有八进制代码 1 的 char 。即使您定义了反向引用（如"<tag1.*>(.*)</tag1>\\1"），您也需要在之后重复使用捕获组 1 捕获的整个文本</tag1> - 即绝对不是你想要的。实际上，我怀疑这个正则表达式有什么好处，至少，你需要替换".*" 为"[\\s\\S]*?"，但它仍然是一个用正则表达式解析 HTML 的脆弱方法。

归档时间：	8 年，7 月前
查看次数：	5878 次
最近记录：	8 年，7 月前

如何仅获取给定的捕获组 &lt;regex&gt; C++

如何仅获取给定的捕获组 <regex> C++