UIMA ruta 注释一个固定长度的序列，其中包含来自特定词表的词

Question

我有一个 WORDTABLE，其中包含表示为字符串（零、一、二、...、n）的数字以及作为特征的相应数字。我正在尝试注释固定长度的字符串化数字序列。

例如：

一二三四 -> 应该加注释

一二三四五六-> 不应注释

到目前为止我已经完成了

WORDTABLE numbers = "numbers.csv";

DECLARE Annotation number(STRING int_string, STRING digit);
DECLARE Annotation numberSequence;

Document{-> MARKTABLE(number, 1, numbers, "digit" = 2)};
(number number) {-> MARK(numberSequence)};

这匹配一个包含 n 字符串化数字的序列，我想要的是确定序列的长度，例如：

number[4,4] {-> MARK(numberSequence)};

其中包含字符串化数字的句子中的最小和最大标记应等于，例如，4。可以这样做吗？

Answer 1

如果恰好有四个 number:

类型的注释，下面是注释文本位置的示例规则

ANY{-PARTOF(number)} @number[4,4] {-> MARK(numberSequence)} ANY{-PARTOF(number)};

免责声明：我是 UIMA Ruta 的开发者

UIMA ruta 注释一个固定长度的序列，其中包含来自特定词表的词

UIMA ruta annotate a sequence of fixed length containing words from specific wordlist

uima

ruta