如何仅获取给定的捕获组 <regex> C++

Art*_*tem 4 c++ regex c++11

我想提取标签的内部内容。来自以下字符串:

<tag1 val=123>Hello</tag1>
Run Code Online (Sandbox Code Playgroud)

我只想得到

Hello
Run Code Online (Sandbox Code Playgroud)

我做什么:

string s = "<tag1 val=123>Hello</tag1>";
regex re("<tag1.*>(.*)</tag1>");
smatch matches;
bool b = regex_match(s, matches, re);
Run Code Online (Sandbox Code Playgroud)

但它返回两个匹配项:

<tag1 val=123>Hello</tag1>
Hello
Run Code Online (Sandbox Code Playgroud)

当我尝试只获取第一个捕获组时,如下所示:

"<tag1.*>(.*)</tag1>\1"
Run Code Online (Sandbox Code Playgroud)

我得到零匹配。

请指教。

Wik*_*żew 5

仅返回regex_match 单个匹配项,以及所有捕获组子匹配项(它们的数量取决于模式中有多少组)。

在这里,您仅获得 1 个包含两个子匹配的匹配:1) 整个匹配,2) 捕获组 1 值。

要获取捕获组的内容,您需要访问smatches对象第二个元素,matches[1].str()或者matches.str(1)

请注意,当您编写 时"<tag1.*>(.*)</tag1>\1"\1 不会被解析为反向引用,而是被解析为带有八进制代码 1 的 char 。即使您定义了反向引用(如"<tag1.*>(.*)</tag1>\\1"),您也需要在之后重复使用捕获组 1 捕获的整个文本</tag1> - 即绝对不是你想要的。实际上,我怀疑这个正则表达式有什么好处,至少,你需要替换".*""[\\s\\S]*?",但它仍然是一个用正则表达式解析 HTML 的脆弱方法。