Stanford NNDep 解析器：使用的特性

Stanford NNDep parser: features used

关于斯坦福的神经网络依赖解析器*̦ which features are used during training and testing phases? In practice, which columns in a CONLLᶸ ˣ 格式的数据集可以用 _ 代替，而解析器在训练时不会失去任何准确性？哪些专栏从未被阅读？

当然 ID、FORM 和 HEAD（列 # 1、2 & 7) 是必须的，因为最有可能的是 U/C-POSTAG (# 4) 和 DEPREL (# 8).但是 LEMMA、(X)-POSTAG 和 FEATS 列呢 (# 3、5 & 6)?它们在训练时有帮助吗，或者树库中是否包含与解析器无关的任何信息？

在当前的实现中，我们只使用以下字段。我的列索引从 1 开始。

FORM（第 2 列）
UPOSTAG（第 4 列）[^1]
HEAD（第 7 列）
DEPREL（第 8 列）

[^1]：如果使用粗略的词性标记 (-cPOS) 进行解析，我们改为阅读第 5 列。

其他所有内容都可以为空，只要您不破坏 CoNLL 格式（即，仍然在空列中包含 _）。

查看我们在此处阅读了哪些专栏：edu.stanford.nlp.parser.nndep.Util.loadConllFile。请注意，这些对于 CoNLL-X 和 CoNLL-U 表示都是相同的。

Stanford NNDep 解析器：使用的特性

Stanford NNDep parser: features used

nlp

stanford-nlp