Stanford NNDep 解析器:使用的特性

Stanford NNDep parser: features used

关于斯坦福的神经网络依赖解析器 which features are used during training and testing phases? In practice, which columns in a CONLLˣ 格式的数据集可以用 _ 代替,而解析器在训练时不会失去任何准确性?哪些专栏从未被阅读?

当然 IDFORMHEAD(列 # 12 & 7) 是必须的,因为最有可能的是 U/C-POSTAG (# 4) 和 DEPREL (# 8).但是 LEMMA(X)-POSTAGFEATS 列呢 (# 35 & 6)?它们在训练时有帮助吗,或者树库中是否包含与解析器无关的任何信息?

在当前的实现中,我们只使用以下字段。我的列索引从 1 开始。

  • FORM(第 2 列)
  • UPOSTAG(第 4 列)[^1]
  • HEAD(第 7 列)
  • DEPREL(第 8 列)

[^1]:如果使用粗略的词性标记 (-cPOS) 进行解析,我们改为阅读第 5 列。

其他所有内容都可以为空,只要您不破坏 CoNLL 格式(即,仍然在空列中包含 _)。

查看我们在此处阅读了哪些专栏:edu.stanford.nlp.parser.nndep.Util.loadConllFile。请注意,这些对于 CoNLL-X 和 CoNLL-U 表示都是相同的。