解析数据的正则表达式

nic*_*sip 8 c++ regex

我正在编写一个从简单文本文件中读取一些数据的应用程序.我感兴趣的数据文件包含以下形式的行:

Mem(100) = 120
Mem(200) = 231
Mem(43) = 12
...
Mem(1293) = 12.54
Run Code Online (Sandbox Code Playgroud)

所以,你可以理解,每一行的模式都是这样的

(\s)*(\t)*Mem([0-9]*) (\s,\t)*= (\s,\t)*[0-9]*(.)*[0-9]*
Run Code Online (Sandbox Code Playgroud)

就像我在字符序列"Mem"之前有任意数量的空格,后跟左括号.然后,有一个数字和一个右括号.之后,在遇到'='(等于)字符之前,有任意数量的空格.然后,任意数量的空格,直到我遇到(可能)浮点数.

如何在C++正则表达式模式中表达它?我是C++中正则表达式概念的新手,所以我需要一些帮助.

谢谢

lui*_*bal 23

首先,请记住#include <regex>.

C++的std::regex_match工作方式与其他语言中的正则表达式类似.

让我们从一个简单的例子开始:

std::string str = "Mem(100)=120";
std::regex regex("^Mem\\([0-9]+\\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;
Run Code Online (Sandbox Code Playgroud)

在这种情况下,我们的正则表达式是^Mem\([0-9]+\)=[0-9]+$.我们来看看它的作用:

  • ^一开始告诉C++这哪里是行开始,所以AMem(1)=2应该不匹配.
  • 所述$在端部告诉C++中,这是其中线端部,所以Mem(1)=2x不应该匹配.
  • \\(是一个文字(字符.(在正则表达式中有一个非常特殊的含义,所以我们逃避它\(.但是,该\字符在C++字符串中具有特殊含义,因此我们使用它\\(来告诉C++将其传递\(给正则表达式引擎.
  • [0-9]匹配一个数字.\\d也应该工作,但话说再说也许不行.
  • [0-9]+意味着至少一个数字.如果Mem()可以接受,那就[0-9]*改用.

如您所见,这就像您在其他语言(例如Java或C#)中找到的正则表达式一样.

现在,要考虑空格,请使用 std::regex regex("^\\s*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+\\s*$");

请注意\s包含\t,因此无需同时指定.如果没有,你会使用(\s|\t)[\s\t]不使用(\s,\t).

最后,为了包括浮点数,我们首先需要考虑是否Mem(1) = 1.(即一个没有数字的点)可以接受.

如果不是,那么.23in 1.23可选的.在正则表达式中,我们?用来表示这一点.

std::regex regex("^[\\s]*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+(\\.[0-9]+)?\\s*$");
Run Code Online (Sandbox Code Playgroud)

请注意,我们使用\.而不仅仅是...在正则表达式中有特殊含义 - 它匹配任何字符 - 所以我们需要转义它.

如果你有一个支持原始字符串的编译器(例如Visual Studio 2013,GCC 4.5,Clang 3.0),你可以简化正则表达式字符串:

std::regex regex(R"(^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$)")
Run Code Online (Sandbox Code Playgroud)

要提取有关匹配字符串的信息,您可以使用std::smatch分组.

让我们从一个小小的变化开始:

std::string str = " Mem(100)=120";
std::regex regex("^[\\s]*Mem\\(([0-9]+)\\)\\s*=\\s*([0-9]+(\\.[0-9]+)?)\\s*$");
std::smatch m;

std::cout << std::regex_match(str, m, regex) << std::endl;
Run Code Online (Sandbox Code Playgroud)

注意三件事:

  1. 我们补充道smatch.此类存储有关匹配的额外结果信息.
  2. 我们添加了额外的括号[0-9]*.这定义了一个组.组告诉正则表达式引擎跟踪其中的内容.
  3. 浮点数周围还有更多括号.这定义了第二组.

非常重要的是,定义组的括号不会被转义,因为我们不希望它们与实际的括号字符匹配.我们实际上想要特殊的正则表达式含义.

现在我们有了这些组,我们可以使用它们:

for (auto result : m) {
    std::cout << result << std::endl;
}
Run Code Online (Sandbox Code Playgroud)

这将首先打印整个字符串,然后是数字Mem(),然后是最终的数字.

换句话说,m[0]给我们整个比赛,m[1]给我们第一组,m[2]给我们第二组,m[3]并给我们第三组,如果我们有一个.

  • 您还可以使用原始字符串文字来删除转义序列.`R "正则表达式(你好\世界)正则表达式"` (3认同)