在解析上下文之外以编程方式访问 ANTLr 语法规则字符串文字

Question

我试图确保由 ANTLr 语法定义的允许值与同一项目中属性文件中定义的一组类型 URI 之间的映射保持彼此同步（即我们运行在语法更新时遇到问题，但有人忘记将相应的类型 URI 添加到匹配令牌的属性文件中。我希望能够向项目添加一个单元测试来检查通过以编程方式访问语法规则的内容来解决不匹配问题。

考虑以下人为设计的语法：

grammar RuleTokenExtractionExample

// Parser Rules

start
    : line EOF
    ;

line
    : WS* fields WS*
    ;

fields
    : field (DELIMITER field)*
    ;

field
    : color
    | fruit
    | number
    ;

color
    : 'Red'
    | 'Orange'
    | 'Yellow'
    | 'Green'
    | 'Blue'
    | 'Indigo'
    | 'Violet'
    ;

fruit
    : 'Apple'
    | 'Apricot'
    | 'Banana'
    | 'Grapefruit'
    | 'Orange'
    | 'Pear'
    | 'Plum'
    ;

number
    : DIGIT (DIGIT*)
    ;

// Lexer Rules

DELIMITER: ',';
WS: [ \t];
DIGIT: [0-9];

在我的代码中，我希望能够调用语法以获取为 "color" 之类的规则定义的标记（例如 myLexer.getVocabulary().getRule(RULE_color).getChildTokens(); 之类的结果生成一个集合对象其内容为"Red"、"Orange"、"Yellow"、"Green"、"Blue"、"Indigo"、"Violet").

有没有办法在 ANTLr 中做到这一点？

我正在 Java 编码，以防万一。

结合@mike-lischke 和@kaby76 的回复，我得到了类似于以下解决方案的结果。它可能不太正确，但做了我需要的。我欢迎来自更聪明和经验丰富的 ANTLr 的更正（因为我都不是）。

public class RuleExtractor {
    public static Set<String> getTokensForRule(int ruleId) {
        Pattern quotedStringLiteral = Pattern.compile("'([^']+)'");
        Grammar grammar = new RuleTokenExtractionExampleGrammar(null);
        ATNState ruleState = grammar.getAtn().ruleToStartState[ruleId];

        Queue<ATNState> queue = new LinkedList();
        Stream.of(ruleState.getTransitions())
                .map(state -> state.target)
                .forEach(queue::add);

        List<String> tokens = new LinkedList<>();
        ATNState state;
        while (!queue.isEmpty()) {
            state = queue.remove();
            Stream.of(state.getTransitions())
                    .forEach(transition -> {
                        if (transition.getSerializationType() == Transition.ATOM) {
                            Matcher matcher = SINGLE_QUOTED_STRING.matcher(getTokenDisplayName(transition
                                    .label()
                                    .get(0)));
                            tokens.add(matcher.matches() ? matcher.group(1) : matcher.group(0));
                        } else {
                            queue.add(transition.target);
                        }
                    });
        }

        return tokens;
    }
}

给出以下命令作为我最初问题的答案：

List<String> tokens = RuleExtractor.getTokensForRule(RuleTokenExtractionExampleGrammar.RULE_color);
System.out.println(String.join(", ", tokens));
// Produces: Red, Orange, Yellow, Green, Blue, Indigo, Violet

或者至少应该如此。我实际上并没有用人为的语法测试解决方案。

Answer 1

您要查找的信息存储在根据您的语法生成的 ATN 中。有一个 class LL1Analyzer，其中 returns 从给定的 ATN 状态在单个规则内可达的所有令牌。

从您的 color 规则传入开始状态。使用您生成的解析器查找该规则的编号（它是那里的静态常量）并使用从 yourparser.getAtn() 返回的 ATN 通过 ATN.ruleToStartState.[=18= 从规则编号中查找该状态]

但有一个警告，您需要 RuleContext 才能使用 LL1Analyzer class。由于这个和其他限制，我也在 code completion core engine. This code is written in Typescript, but there's a Java port 中重写了这个查找。

在解析上下文之外以编程方式访问 ANTLr 语法规则字符串文字

Programmatically Access ANTLr Grammar Rule String Literals outside of a parse context

java

testing

automated-tests

unit-testing

antlr4