ANTLR4词法分析器无法解决语法顺序中的歧义

Question

ANTLR4词法分析器无法解决语法顺序中的歧义

使用ANTLR 4.2,我正在尝试对此测试数据进行非常简单的解析:

RRV0#ABC

Run Code Online (Sandbox Code Playgroud)

使用最小语法:

grammar Tiny;

thing : RRV N HASH ID ;

RRV : 'RRV' ;
N : [0-9]+ ;
HASH : '#' ;
ID : [a-zA-Z0-9]+ ;
WS : [\t\r\n]+ -> skip ; // match 1-or-more whitespace but discard

Run Code Online (Sandbox Code Playgroud)

根据Terence Parr的最终ANTLR 4参考文献中的摘录,我希望词法分析器RRV在ID之前匹配:

BEGIN : 'begin' ; // match b-e-g-i-n sequence; ambiguity resolves to BEGIN
ID : [a-z]+ ; // match one or more of any lowercase letter

Run Code Online (Sandbox Code Playgroud)

使用上面的测试数据运行ANTLR4测试台,输出为

[@0,0:3='RRV0',<4>,1:0]
[@1,4:4='#',<3>,1:4]
[@2,5:7='ABC',<4>,1:5]
[@3,10:9='<EOF>',<-1>,2:0]
line 1:0 mismatched input 'RRV0' expecting 'RRV'

Run Code Online (Sandbox Code Playgroud)

我可以看到ID的第一个标记是<4>,值为'RRV0'

我已经尝试重新排列词法分析器项目顺序.我还尝试通过在语法规则中显式匹配(而不是通过显式词法分析项)来使用隐式词法分析项.我也尝试过不贪婪的比赛.那些对我来说并不成功.

如果我将lexed ID项更改为不匹配大写,则RRV项匹配,解析将更进一步.

我开始在ANTLR 4.1中遇到同样的问题.

我检查了ANTLRWorks和命令行,两种方式都有相同的结果.

如何更改语法以匹配词法分析器RRV优先于ID？

Answer 1

Sam*_*ell 5

语法顺序解析策略仅适用于两个不同的词法规则匹配相同长度的令牌.当长度不同时,最长的一个总是获胜.在您的情况下,ID规则匹配长度为4的令牌,该长度比RRV仅匹配3个字符的令牌长.

这种策略在Java等语言中尤为重要.考虑以下输入:

String className = "";

Run Code Online (Sandbox Code Playgroud)

以及以下两个语法规则(略微简化):

CLASS : 'class';
ID : [a-zA-Z_] [a-zA-Z0-9_]*;

Run Code Online (Sandbox Code Playgroud)

如果我们只考虑语法顺序,那么输入className将产生一个关键字,后跟标识符Name.重新排列规则并不能解决问题,因为CLASS即使是输入,也无法创建令牌class.

归档时间：	11 年，9 月前
查看次数：	1211 次
最近记录：	11 年，3 月前