带或不带标点符号的依赖解析器评估

Dependency parser evaluation with or without punctuation

我想评估一个考虑标点符号和不考虑标点符号的依赖解析器。如果我不想考虑标点符号,我应该如何定义输入数据?如果我使用相同的输入数据(带标点符号的普通句子)作为输入,解析器会定义包括标点符号在内的所有依赖项。在评估期间,我排除了与句点和逗号等相关的所有依赖项。或者我应该删除输入句子中的标点符号吗? 为什么在评估依赖项解析器时通常不包括标点符号 (CONLL-X)?

无论评估细节如何,输入数据都应定义相同。 在标准的 CoNLL 评估中,我们根本不计算通向标点符号的弧。 (标准评估中的 "Punctuation tokens" 是 `` '' . , : 。(CoreNLP reference))

至于"why,"我没有一个非常令人满意的答案..这里有一些猜测:

  1. SOTA 解析器不太擅长确定标点依赖性(正确)。如果我们包括标点符号,数字会大幅下降。标点符号性能的变化可能会掩盖自然语言解析的真正改进,这是不可取的。
  2. 我认为标点依赖性有点难以防御* — 当前数据集中现存的依赖性只是一种约定,但其他标点符号分析也可能获得许可。 (将此与 amod 依赖项进行比较,考虑到我们同意注释方案,这真的没有争议。)

`* 我不是依赖语法方面的专家,所以请不要把我太当真:)