如何最好地解析 PEG 语法中的逗号分隔列表

Leo*_*arr 6 grammar parsing left-recursion pegjs

我正在尝试解析逗号分隔的列表。为了简单起见,我只使用数字。这些表达式是有效的:

(1,4,3)

()

(4)

我可以想到两种方法来做到这一点,我想知道为什么失败的例子不起作用。我相信它是正确的 BNF,但我无法让它像 PEG 一样工作。谁能准确解释为什么吗?我试图更好地理解 PEG 解析逻辑。

我正在使用在线浏览器解析器生成器进行测试: https: //pegjs.org/online

这不起作用:

list = '(' some_digits? ')'
some_digits = digit / ', ' some_digits
digit = [0-9]
Run Code Online (Sandbox Code Playgroud)

(实际上,它解析得很好,喜欢 () 或 (1),但不识别 (1, 2)

但这确实有效:

list = '(' some_digits? ')'
some_digits = digit another_digit*
another_digit = ', ' digit
digit = [0-9]
Run Code Online (Sandbox Code Playgroud)

这是为什么?(语法新手看这里)

小智 5

很酷的问题,在深入研究他们的文档后,我发现这个/角色的意思是:

尝试匹配第一个表达式,如果不成功,则尝试第二个,以此类推。返回第一个成功匹配的表达式的匹配结果。如果没有表达式匹配,则认为匹配失败。

所以这引导我找到解决方案:

list = '(' some_digits? ')'
some_digits = digit ', ' some_digits / digit
digit = [0-9]
Run Code Online (Sandbox Code Playgroud)

这样做的原因:

输入:(1, 4)

  • 吃'('
  • 检查是否有一些数字?
  • 检查 some_digits - 第一个条件:
    • 吃“1”
    • 吃','
    • 检查 some_digits - 第一个条件:
      • 吃“4”
      • 没能吃到','
    • 检查 some_digits - 第二个条件:
      • 吃“4”
      • 成功
    • 成功
  • 吃')'
  • 成功

如果你颠倒条件的顺序,some_digits遇到的第一个数字就会被吃掉digit,并且不会发生递归。然后它会抛出错误,因为 ')' 不存在。