Jav*_*Man 6 parsing antlr lexer
我已经定义了多个可能匹配相同字符序列的词法规则.例如:
LBRACE: '{' ;
RBRACE: '}' ;
LPARENT: '(' ;
RPARENT: ')' ;
LBRACKET: '[' ;
RBRACKET: ']' ;
SEMICOLON: ';' ;
ASTERISK: '*' ;
AMPERSAND: '&' ;
IGNORED_SYMBOLS: ('!' | '#' | '%' | '^' | '-' | '+' | '=' |
'\\'| '|' | ':' | '"' | '\''| '<' | '>' | ',' | '.' |'?' | '/' ) ;
// WS comments*****************************
WS: (' '|'\n'| '\r'|'\t'|'\f' )+ {$channel=HIDDEN;};
ML_COMMENT: '/*' .* '*/' {$channel=HIDDEN;};
SL_COMMENT: '//' .* '\r'? '\n' {$channel=HIDDEN;};
STRING_LITERAL: '"' (STR_ESC | ~( '"' ))* '"';
fragment STR_ESC: '\\' '"' ;
CHAR_LITERAL : '\'' (CH_ESC | ~( '\'' )) '\'' ;
fragment CH_ESC : '\\' '\'';
Run Code Online (Sandbox Code Playgroud)
我的IGNORED_SYMBOLS和ASTERISK分别匹配/,"和*.因为它们(无意中)放在我的评论和字符串文字规则之前,它们也匹配/*和",我希望评论和字符串文字规则将被禁用(无意中).但令人惊讶的是,ML_COMMENT,SL_COMMENT和STRING_LITERAL规则仍能正常工作.
这有点令人困惑.是不是/ /,它是/*的一部分还是只是一个独立的/,在它有机会被ML_COMMENT匹配之前,它将始终由IGNORED_SYMBOLS匹配和使用?
如果字符匹配多个规则,词法分析器决定应用哪些规则的方式是什么?
如果字符匹配多个规则,词法分析器决定应用哪些规则的方式是什么?
Lexer规则从上到下匹配.如果两个(或更多)规则匹配相同数量的字符,则首先定义的规则优先于语法中稍后定义的规则.如果规则匹配N
字符数且后面的规则匹配相同的N
字符加上 1个或更多字符,则匹配后面的规则(贪婪匹配).
例如,采用以下规则:
DO : 'do';
ID : 'a'..'z'+;
Run Code Online (Sandbox Code Playgroud)
输入"do"
显然会与规则匹配DO
.
输入如:"done"
将贪婪匹配ID
.它没有被标记为2个令牌:[DO:"do"]
其次是[ID:"ne"]
.