正则表达式使用换行符拆分字符串(除非它在双引号之间)

Mic*_*ael 3 c# regex split newline double-quotes

我正在做一些分隔文件处理。我需要做的第一件事是获取所有“行”。得到每一行后,我可以根据指定的分隔符进行拆分。因此,为了获得行,我需要使用各种行名称(\r\n、\r、\n)拆分字符串。以下一直有效,直到我在双引号中遇到换行符:

return content.Split(new string[] { "\r\n", "\r", "\n" }, StringSplitOptions.None);
Run Code Online (Sandbox Code Playgroud)

因此,如果您考虑以下文本(我的原始文本将双引号内的双引号转义为 \" 而不是 ""),其中每一行都由行名称之一分隔,并且行中的每个字段/列由管道“|”字符:

string s = "row1 col1|\"row1 \"\"col2a\"\"\r\nrow1 col2b\"|row1 col3\nrow2 col1|\"row2 \"\"col2a\"\"\rrow2 \"\"col2b\"\"\"|row2 col3\r\nrow3 col1|\"row3 col2a\nrow3 col2b\"|row3 col3";
Run Code Online (Sandbox Code Playgroud)

这等于以下字符串:

row1 col1|"row1 ""col2a""{CRLF}row1 ""col2b"""|row1 col3{CRLF}row2 col1|"row2 ""col2a""{CRLF}row2 ""col2b"""|row2 col3{ CRLF}row3 col1|"row3 col2a{CRLF}row3 col2b"|row3 col3

用我原来的方法拆分上面的结果有 5 行:

string[] result = s.Split(new string[] { "\r\n", "\r", "\n" }, StringSplitOptions.None);
Run Code Online (Sandbox Code Playgroud)

但我想使用行分隔符 (\r\n, \r, \n) 将上述内容拆分为 3 行:

result[0] == "row1 col1|\"row1 \"\"col2a\"\"\r\nrow1 col2b\"|row1 col3"
result[1] == "row2 col1|\"row2 \"\"col2a\"\"\rrow2 \"\"col2b\"\"\"|row2 col3"
result[2] == "row3 col1|\"row3 col2a\nrow3 col2b\"|row3 col3"
Run Code Online (Sandbox Code Playgroud)

有没有人想出一个正则表达式来分割行(引号内除外)?

这是我最终得到的,感谢 Alan:

public string[] GetLines (string fileContent) {
    Regex regex = new Regex(@"^([^""\r\n]*(?:(?:""[^""]*"")*[^""\r\n]*))", RegexOptions.Multiline);
    MatchCollection matchCollection = regex.Matches(fileContent);
    string[] result = new string[matchCollection.Count];
    for (int i = 0; i < matchCollection.Count; i++) {
        Match match = matchCollection[i];
        result[i] = match.Value;
    }
    return result;
}
Run Code Online (Sandbox Code Playgroud)

Ala*_*ore 6

我会使用Matches()而不是Split()

Regex r = new Regex(@"(?m)^[^""\r\n]*(?:(?:""[^""]*"")+[^""\r\n]*)*");
MatchCollection m = r.Matches(s);
Run Code Online (Sandbox Code Playgroud)

内部部分 ,(?:(?:"[^"]*")+匹配可能包含转义引号的双引号字符串。整个正则表达式匹配可能包含一个或多个双引号字符串的一行。请注意,内部字符类 ( [^"]) 可以匹配\rand \n,而外部字符类( [^"\r\n]) 明确排除它们。line-start 锚点(^在多行模式下)防止真实匹配之间的虚假空匹配。

这是一个演示。(它在 PCRE 中,但我也在 .NET 中测试过。)