我写了一个正则表达式,其工作是将所有匹配返回到其三个备选捕获组.我的目标是了解每个匹配产生哪个捕获组.PCRE似乎能够产生这些信息.但是我还没有能够强制TRegExDelphi XE8中的类来为匹配产生有意义的捕获组信息.我不能声称自己是正则表达式的主管,TRegEx对我来说是新手,所以谁知道我正在犯的错误.
正则表达式(regex101.com workpad)是:
(?'word'\b[a-zA-Z]{3,}\b)|(?'id'\b\d{1,3}\b)|(?'course'\b[BL]\d{3}\b)
Run Code Online (Sandbox Code Playgroud)
这个测试文本:
externship L763 clinic 207 B706 b512
Run Code Online (Sandbox Code Playgroud)
在测试环境中给出五个匹配.但是一个简单的测试程序可以显示TGroupCollection每个组TMatch中TMatchCollection显示的奇怪结果:所有匹配都有多个组(2,3或4),每个组Success都是真的,并且匹配的文本通常在多个组中重复或者为空.所以这个数据结构(下面)不是我所期望的:
Using TRegEx
Regex: (?'word'\b[a-zA-Z]{3,}\b)|(?'id'\b\d{1,3}\b)|(?'course'\b[BL]\d{3}\b)
Text: externship L763 clinic 207 B706 b512
5 matches
'externship' with 2 groups:
length 10 at 1 value 'externship' (Sucess? True)
length 10 at 1 value 'externship' (Sucess? True)
'L763' with 4 groups:
length 4 at 12 value 'L763' (Sucess? True)
length 0 at 1 value '' (Sucess? True)
length 0 at 1 value '' (Sucess? True)
length 4 at 12 value 'L763' (Sucess? True)
'clinic' with 2 groups:
length 6 at 17 value 'clinic' (Sucess? True)
length 6 at 17 value 'clinic' (Sucess? True)
'207' with 3 groups:
length 3 at 24 value '207' (Sucess? True)
length 0 at 1 value '' (Sucess? True)
length 3 at 24 value '207' (Sucess? True)
'B706' with 4 groups:
length 4 at 28 value 'B706' (Sucess? True)
length 0 at 1 value '' (Sucess? True)
length 0 at 1 value '' (Sucess? True)
length 4 at 28 value 'B706' (Sucess? True)
Run Code Online (Sandbox Code Playgroud)
我的简单测试运行器是这样的:
program regex_tester;
{$APPTYPE CONSOLE}
{$R *.res}
uses
System.SysUtils,
System.RegularExpressions,
System.RegularExpressionsCore;
var
Matched : Boolean;
J : integer;
Group : TGroup;
Match : TMatch;
Matches : TMatchCollection;
RegexText,
TestText : String;
RX : TRegEx;
RXPerl : TPerlRegEx;
begin
try
RegexText:='(?''word''\b[a-zA-Z]{3,}\b)|(?''id''\b\d{1,3}\b)|(?''course''\b[BL]\d{3}\b)';
TestText:='externship L763 clinic 207 B706 b512';
RX:=TRegex.Create(RegexText);
Matches:=RX.Matches(TestText);
Writeln(Format(#10#13#10#13'Using TRegEx'#10#13'Regex: %s'#10#13'Text: %s'#10#13,[RegexText, TestText]));
Writeln(Format('%d matches', [Matches.Count]));
for Match in Matches do
begin
Writeln(Format(' ''%s'' with %d groups:', [Match.Value,Match.Groups.Count]));
for Group in Match.Groups do
Writeln(Format(#9'length %d at %d value ''%s'' (Sucess? %s)', [Group.Length,Group.Index,Group.Value,BoolToStr(Group.Success, True)]));
end;
RXPerl:=TPerlRegEx.Create;
RXPerl.Subject:=TestText;
RXPerl.RegEx:=RegexText;
Writeln(Format(#10#13#10#13'Using TPerlRegEx'#10#13'Regex: %s'#10#13'Text: %s'#10#13,[RXPerl.Regex, RXPerl.Subject]));
Matched:=RXPerl.Match;
if Matched then
repeat
begin
Writeln(Format(' ''%s'' with %d groups:', [RXPerl.MatchedText,RXPerl.GroupCount]));
for J:=1 to RXPerl.GroupCount do
Writeln(Format(#9'length %d at %d, value ''%s''',[RXPerl.GroupLengths[J],RXPerl.GroupOffsets[J],RXPerl.Groups[J]]));
Matched:=RXPerl.MatchAgain;
end;
until Matched=false;
except
on E: Exception do
Writeln(E.ClassName, ': ', E.Message);
end;
end.
Run Code Online (Sandbox Code Playgroud)
我当然欣赏正确方向的推动.如果TRegEx坏了,我当然可以使用另一种选择 - 或者我可以放弃解决方案的优雅,而是使用三个更简单的测试来找到我需要的信息.
作为@安德烈- galatyn笔记,TRegEx使用TPerlRegEx其工作.所以我在我的测试程序(下面的输出)中添加了一个部分,我也在那里进行实验.使用起来并不方便TRegEx,但其结果应该是 - 并且没有TRegEx破坏TGroup数据结构的问题.无论我使用哪个类,最后一组的索引(TRegEx少于1)都是我想要的捕获组.
一路上我被提醒说Pascal数组通常基于1而不是0.
Using TPerlRegEx
Regex: (?'word'\b[a-zA-Z]{3,}\b)|(?'id'\b\d{1,3}\b)|(?'course'\b[BL]\d{3}\b)
Text: externship L763 clinic 207 B706 b512
'externship' with 1 groups:
length 10 at 1, value 'externship'
'L763' with 3 groups:
length 0 at 1, value ''
length 0 at 1, value ''
length 4 at 12, value 'L763'
'clinic' with 1 groups:
length 6 at 17, value 'clinic'
'207' with 2 groups:
length 0 at 1, value ''
length 3 at 24, value '207'
'B706' with 3 groups:
length 0 at 1, value ''
length 0 at 1, value ''
length 4 at 28, value 'B706'
Run Code Online (Sandbox Code Playgroud)
Delphi 在内部使用 TPerlRegEx 类,它对 GroupCount 属性有这样的描述:
存储在 Groups 数组中的匹配组数。此数字是您的正则表达式中实际参与最后一场比赛的编号最高的捕获组的编号。它可能小于正则表达式中的捕获组数。
例如,当正则表达式 "(a)|(b)" 匹配 "a" 时,GroupCount 将为 1。当相同的正则表达式匹配 "b" 时,GroupCount 将为 2。
TRegEx 类总是再添加一组(我猜是整个表达式)。在您的情况下,像这样检查每场比赛就足够了:
case Match.Groups.Count-1 of
1: ; // "word" found
2: ; // "id" found
3: ; // "course" found
end;
Run Code Online (Sandbox Code Playgroud)
它没有回答为什么组中充满了奇怪的数据,实际上它似乎足以回答您的问题。:)