如何让antlr4完全标记终端节点

Question

我正在尝试使用 Antlr 制作一个非常简单的解析器，它基本上标记了一系列 . 分隔的标识符。

我做了一个简单的语法：

r  : STRUCTURE_SELECTOR ;
STRUCTURE_SELECTOR: '.' (ID STRUCTURE_SELECTOR?)? ;
ID : [_a-z0-9$]* ;             
WS : [ \t\r\n]+ -> skip ;

生成解析器时，我最终得到一个表示字符串的终端节点，而不是能够找到更多的 STRUCTURE_SELECTORs。相反，我希望看到一个序列（可能表示为当前节点的 children）。我怎样才能做到这一点？

举个例子：

. 将产生一个终端节点，其文本为 .
.foobar 将产生两个节点，一个带有文本 . 的 parent 和一个带有文本 foobar
.foobar.baz 将产生四个节点，一个带有文本 . 的 parent，一个带有文本 foobar 的 child，一个 second-level child 与文本 .，以及 third-level child 与文本 baz.

Answer 1

以大写字母开头的规则是 Lexer 规则。

使用以下输入文件t.text

.
.foobar
.foobar.baz

您的语法（在文件 Question.g4 中）产生以下标记

$ grun Question r -tokens -diagnostics t.text
[@0,0:0='.',<STRUCTURE_SELECTOR>,1:0]
[@1,2:8='.foobar',<STRUCTURE_SELECTOR>,2:0]
[@2,10:20='.foobar.baz',<STRUCTURE_SELECTOR>,3:0]
[@3,22:21='<EOF>',<EOF>,4:0]

词法分析器（解析器）是贪婪的。它尝试使用规则读取尽可能多的输入字符（标记）。词法分析器规则 STRUCTURE_SELECTOR: '.' (ID STRUCTURE_SELECTOR?)? 可以读取一个点、一个 ID，然后再读取一个点和一个 ID（由于重复标记 ?），直到 NL。这就是为什么每一行都以一个标记结束。

编译语法时，报错

warning(146): Question.g4:5:0: non-fragment lexer rule ID can match the empty string

是因为ID的重复标记是*（即0次或多次）而不是+（一次或多次）。

现在试试这个语法：

grammar Question;

r  
@init {System.out.println("Question last update 2135");}
    :   ( structure_selector NL )+ EOF
    ;

structure_selector
    :   '.'
    |   '.' ID structure_selector*
    ;

ID  : [_a-z0-9$]+ ;   
NL  : [\r\n]+ ;          
WS  : [ \t]+ -> skip ;

$ grun Question r -tokens -diagnostics t.text
[@0,0:0='.',<'.'>,1:0]
[@1,1:1='\n',<NL>,1:1]
[@2,2:2='.',<'.'>,2:0]
[@3,3:8='foobar',<ID>,2:1]
[@4,9:9='\n',<NL>,2:7]
[@5,10:10='.',<'.'>,3:0]
[@6,11:16='foobar',<ID>,3:1]
[@7,17:17='.',<'.'>,3:7]
[@8,18:20='baz',<ID>,3:8]
[@9,21:21='\n',<NL>,3:11]
[@10,22:21='<EOF>',<EOF>,4:0]
Question last update 2135
line 3:7 reportAttemptingFullContext d=1 (structure_selector), input='.'
line 3:7 reportContextSensitivity d=1 (structure_selector), input='.'

和 $ grun Question r -gui t.text 显示您期望的分层树结构。

如何让antlr4完全标记终端节点

How to make antlr4 fully tokenize terminal nodes

antlr4