我开发了一个匹配pstops页面规范的正则表达式.(正则表达式空白不重要.)
^(?:(?<modulo>\d+):)?
(?<pages>
(?<pagespec>
(?<pageno>-?\d+)
(?<rotation>[RUL]?)?
(?:@(?<scale>\d*(?:\.\d+)))?
(?:\(
(?<xoff>\d*\.?\d+)(?<xunit>in|cm|w|h)?
,
(?<yoff>\d*\.?\d+)(?<yunit>in|cm|w|h)?
\))?
\+?)+,?
)+$
Run Code Online (Sandbox Code Playgroud)
.
'Sample string:
'"4:1L@.7(21cm,0)+-2L@.7(21cm,14.85cm),1L(21cm,0)+-2L@.7(21cm,14.85cm)"
Run Code Online (Sandbox Code Playgroud)
如您所见,有嵌套的命名子组.一个pagespec不需要指定rotation,例如.我希望能够做到这一点:
If match.Groups("pages").Captures(0).Groups("pagespecs").Captures(1).Groups("rotation").Value > ""
Run Code Online (Sandbox Code Playgroud)
但当然Captures没有Groups财产.有没有办法以这种方式访问层次结构中的子组?
编辑:这是一个更简单的例子(这次重要的空白区域):
(?<paragraph>(?:(?<sentence>The (?<child>boy|girl) is hungry\.|The (?<parent>mother|father) is angry\.)\s*)+)
Run Code Online (Sandbox Code Playgroud)
与此字符串匹配:
The boy is hungry. The mother is angry. The girl is hungry.
Run Code Online (Sandbox Code Playgroud)
产生一场比赛.在那场比赛中,
Groups("paragraph") 有一个捕获匹配整个字符串.Groups("sentence") 有三次捕获.Groups("child")有两个捕获,boy和girl.Groups("parent")有一次捕获,mother.但是没有什么可以告诉我parent在第二次捕获中的单次捕获sentence,除非我开始查看Index和Length每次捕获.
编辑:这是最终的答案:
^(?:(?<modulo>\d+):)?
(?<pages>
(?<pagespec>
(?<pageno>-?\d+)
(?<rotation>[RUL]?)
(?:@(?<scale>\d*(?:\.\d+)))?
(?:\(
(?<xoff>\d*\.?\d+)(?<xunit>in|cm|w|h)?
,
(?<yoff>\d*\.?\d+)(?<yunit>in|cm|w|h)?
\))?
(?<pageno>)(?<rotation>)(?<scale>)(?<xoff>)(?<xunit>)(?<yoff>)(?<yunit>)
\+?)+,?
(?<pagespec>)
)+
Run Code Online (Sandbox Code Playgroud)
这将一个推NULL到pagespec每个之间的堆栈上page,因此它们可以相互关联page; 和NULL每个之间的每个其他命名堆栈pagespec.哎呀,解析很难......
我认为这是不可能的。据我所知,不同的组在模式中的嵌套方式方面彼此没有关系。此外,这样的层次结构甚至没有意义,因为组名称可以在 .NET 中重用:
(?<group>
(?<sub>.)
)+
(?<sub>.)
Run Code Online (Sandbox Code Playgroud)
我想以某种方式也可以将其表示为分层树,但这会违背堆栈的目的,.NET 为捕获而维护。也许我应该澄清一下:.NET 并不简单地列出一个组的所有捕获 - 它将它们推送到一个堆栈上,例如可以从中再次弹出它们(?<-sub>)。现在,如果一个组的实例稍后从堆栈中弹出之前匹配的内容,您会如何处理?我认为对于一般情况来说,即使不是不可能解决,也会变得非常不直观。
您真正想要的是pagespecs根据捕获的内容与单个“实例”的对应方式对捕获进行分组pages。您可以通过阻止解决方案的原因来执行此操作,您希望拥有:您可以重用组:
^(?:(?<modulo>\d+):)?
(?<pages>
(?<pagespecs>
# here goes your actual pagespec pattern
[+]?)+
(?<pagespecs>)
,?
)+$
Run Code Online (Sandbox Code Playgroud)
现在,在每个末尾,page您将一个空字符串推入堆栈pagespecs。由于 的正常“实例”pagespecs将始终包含至少一个字符,因此您知道任何空捕获都必须来自 的单独使用pagespecs。因此,您现在可以Captures("pagespecs")按空字符串元素进行拆分,然后将它们按顺序与 中的元素关联起来Captures("pages")。
| 归档时间: |
|
| 查看次数: |
1239 次 |
| 最近记录: |