Raku 语法：使用命名正则表达式而不消耗匹配的字符串

Question

Raku 语法：使用命名正则表达式而不消耗匹配的字符串

我有一个可能很容易回答 Raku 语法问题。我不会解析日志文件并通过日志条目取回条目日志条目。日志条目可以只是一行或多行字符串。

我的草稿代码如下所示：

grammar Grammar::Entries {
    rule TOP { <logentries>+ }

    token logentries { <loglevel> <logentry> }
    token loglevel { 'DEBUG' | 'WARN' | 'INFO ' | 'ERROR' }
    token logentry { .*? <.finish> }
    token finish { <.loglevel> || $ }
}

Run Code Online (Sandbox Code Playgroud)

这仅适用于第一行，因为在第二行中日志级别被第一行匹配消耗，尽管我使用了 '.' 在正则表达式 <> 中，据我所知意味着非捕获。

以下是日志示例：

INFO    2020-01-22T11:07:38Z    PID[8528]   TID[6736]:  Current process-name: C:\Windows\System32\WindowsPowerShell\v1.0\powershell.exe
INFO    2020-01-22T11:07:38Z    PID[8528]   TID[6736]:  Session data:
    PID: 1234
    TID: 1234
    Session: 1
INFO    2020-01-22T11:07:38Z    PID[8528]   TID[6736]:  Clean up.

Run Code Online (Sandbox Code Playgroud)

即使对于多行日志条目，恢复日志条目的正确方法是什么？谢谢！

Answer 1

Bra*_*ert 5

的.*?工作，但效率不高。
它必须做很多回溯。

为了改进它，您可以使用\N*which 匹配除换行符以外的所有内容。

grammar Grammar::Entries {
    rule TOP { <logentries>+ }

    token logentries { <loglevel> <logentry> }
    token loglevel { 'DEBUG' | 'WARN' | 'INFO' | 'ERROR' }
    token logentry { \N* \n }
}

Run Code Online (Sandbox Code Playgroud)

然后您必须重新添加换行符匹配。

    token logentry {
      <logline>* %% \n
    }
    token logline { <!before \w> \N* }

Run Code Online (Sandbox Code Playgroud)

这会起作用，但它仍然不是很好。

我会更像你试图解析的东西来构建语法。

grammar Grammar::Entries {
    token TOP { <logentries>+ }

    token logentries { <loglevel> <logentry> }
    token loglevel { 'DEBUG' | 'WARN' | 'INFO' | 'ERROR' }
    token logentry { <logline>* }
    token logline { '    ' <(\N+)> \n? }
}

Run Code Online (Sandbox Code Playgroud)

由于我注意到日志行总是以 4 个空格开头，我们可以使用它来确保只有以logline. 这也处理带有日志级别的行上的剩余数据。

我真的不喜欢你有一个复数名称只匹配一件事的标记。
基本上我会命名logentries为logentry. 当然，这意味着也logentry需要更改名称。

grammar Grammar::Entries {
    token TOP { <logentry>+ }

    token logentry { <loglevel> <logdata> }
    token loglevel { 'DEBUG' | 'WARN' | 'INFO' | 'ERROR' }
    token logdata { <logline>* }
    token logline { '    ' <(\N+)> \n? }
}

Run Code Online (Sandbox Code Playgroud)

我也不喜欢log附加到每个令牌的冗余。

grammar Grammar::Entries {
    token TOP { <entry>+ }

    token entry { <level> <data> }
    token level { 'DEBUG' | 'WARN' | 'INFO' | 'ERROR' }
    token data { <line>* }
    token line { '    ' <(\N+)> \n? }
}

Run Code Online (Sandbox Code Playgroud)

所以这就是说 aGrammar::Entries至少包含一个entry.
Anentry以 a 开头，level以 some 结尾data。
data由任意数量的lines 组成
Aline以四个空格开头，至少一个非换行符，并且可能以换行符结尾。

我试图提出的观点是按照与数据结构相同的方式来构建语法。

您甚至可以添加用于提取信息的结构，这样您就不必将其作为第二步。

归档时间：	5 年，6 月前
查看次数：	119 次
最近记录：	5 年，6 月前