西班牙语文本的正则表达式解析器

Question

我正在尝试定义一个语法，以便使用 Regex 解析器从文本中检索数量和水果。显然语法有问题，因为在结果中我只能看到数量。我在下面粘贴了示例文本和我正在使用的代码。 HMM 标注器是用 cess_esp 语料库训练的。

grammar = r""" 
  fruits: {<NCFP000>} 
  quantity:{<Z>}
"""
regex_parser = nltk.RegexpParser(grammar)
cp = nltk.RegexpParser(grammar)
example=['quiero 3 cervezas']

for sent in example:
    tokens = nltk.word_tokenize(sent)
    taggex = hmm_tagger.tag(tokens)
print(taggex)
result = cp.parse(taggex)
result.draw()

Answer 1

尝试使用 NLTK 标注器代替马尔可夫标注器：

taggex = nltk.pos_tag(tokens)

我检查过它，它也应该适用于您的代码。

西班牙语文本的正则表达式解析器

Regex parser for a Spanish text

python

regex

nltk