ANTLR:如何使用词法分析器解析匹配括号内的区域

Seb*_*ian 5 antlr brackets matching lexer

我想在我的词法分析器中解析这样的东西:

( begin expression )
Run Code Online (Sandbox Code Playgroud)

其中表达式也用括号括起来。表达式中的内容并不重要,我只想将(begin和 匹配之间的所有内容)作为标记。一个例子是:

(begin 
    (define x (+ 1 2)))
Run Code Online (Sandbox Code Playgroud)

所以令牌的文本应该是

(define x (+ 1 2)))
Run Code Online (Sandbox Code Playgroud)

就像是

PROGRAM : LPAREN BEGIN .* RPAREN;
Run Code Online (Sandbox Code Playgroud)

确实(显然)不起作用,因为一旦他看到“)”,他就认为规则已经结束,但我需要匹配的括号。

我怎样才能做到这一点?

Bar*_*ers 5

在词法分析器规则中,您可以递归调用规则。所以,这是解决这个问题的一种方法。另一种方法是跟踪左括号和右括号的数量,只要您的计数器大于零,就让门控语义谓词 循环。

一个演示:

TG

grammar T;

parse
  :  BeginToken {System.out.println("parsed :: " + $BeginToken.text);} EOF
  ;

BeginToken 
@init{int open = 1;}
  :  '(' 'begin' ( {open > 0}?=>              // keep reapeating `( ... )*` as long as open > 0
                     ( ~('(' | ')')           // match anything other than parenthesis
                     | '('          {open++;} // match a '(' in increase the var `open`
                     | ')'          {open--;} // match a ')' in decrease the var `open`
                     )
                 )*
  ;
Run Code Online (Sandbox Code Playgroud)

主程序

import org.antlr.runtime.*;

public class Main {
  public static void main(String[] args) throws Exception {
    String input = "(begin (define x (+ (- 1 3) 2)))";
    TLexer lexer = new TLexer(new ANTLRStringStream(input));
    TParser parser = new TParser(new CommonTokenStream(lexer));
    parser.parse();
  }
}
Run Code Online (Sandbox Code Playgroud)
java -cp antlr-3.3-complete.jar org.antlr.Tool T.g
javac -cp antlr-3.3-complete.jar *.java
java -cp .:antlr-3.3-complete.jar Main

parsed :: (begin (define x (+ (- 1 3) 2)))
Run Code Online (Sandbox Code Playgroud)

请注意,您需要注意源中可能包含括号的字符串文字:

BeginToken
@init{int open = 1;}
  :  '(' 'begin' ( {open > 0}?=>              // ...
                     ( ~('(' | ')' | '"')     // ...
                     | '('          {open++;} // ...
                     | ')'          {open--;} // ...
                     |  '"' ...               // TODO: define a string literal here
                     )
                 )*
  ;
Run Code Online (Sandbox Code Playgroud)

或可能包含括号的注释。

带有谓词的建议使用了一些特定于语言的代码(在本例中为 Java)。递归调用词法分析器规则的一个优点是你的词法分析器中没有自定义代码:

BeginToken 
  :  '(' Spaces? 'begin' Spaces? NestedParens Spaces? ')'
  ;

fragment NestedParens
  :  '(' ( ~('(' | ')') | NestedParens )* ')'
  ;

fragment Spaces
  :  (' ' | '\t')+
  ;
Run Code Online (Sandbox Code Playgroud)