带或不带标点符号的依赖解析器评估

Dependency parser evaluation with or without punctuation

我想评估一个考虑标点符号和不考虑标点符号的依赖解析器。如果我不想考虑标点符号，我应该如何定义输入数据？如果我使用相同的输入数据（带标点符号的普通句子）作为输入，解析器会定义包括标点符号在内的所有依赖项。在评估期间，我排除了与句点和逗号等相关的所有依赖项。或者我应该删除输入句子中的标点符号吗？为什么在评估依赖项解析器时通常不包括标点符号 (CONLL-X)？

无论评估细节如何，输入数据都应定义相同。在标准的 CoNLL 评估中，我们根本不计算通向标点符号的弧。（标准评估中的 "Punctuation tokens" 是 `` '' . , : 。（CoreNLP reference））

至于"why,"我没有一个非常令人满意的答案..这里有一些猜测：

SOTA 解析器不太擅长确定标点依赖性（正确）。如果我们包括标点符号，数字会大幅下降。标点符号性能的变化可能会掩盖自然语言解析的真正改进，这是不可取的。
我认为标点依赖性有点难以防御* — 当前数据集中现存的依赖性只是一种约定，但其他标点符号分析也可能获得许可。（将此与 amod 依赖项进行比较，考虑到我们同意注释方案，这真的没有争议。）

`* 我不是依赖语法方面的专家，所以请不要把我太当真:)

带或不带标点符号的依赖解析器评估

Dependency parser evaluation with or without punctuation

dependencies

nlp

stanford-nlp