Stanford NNDep 解析器:使用的特性
Stanford NNDep parser: features used
关于斯坦福的神经网络依赖解析器*̦ which features are used during training and testing phases? In practice, which columns in a CONLLᶸˣ 格式的数据集可以用 _ 代替,而解析器在训练时不会失去任何准确性?哪些专栏从未被阅读?
当然 ID
、FORM
和 HEAD
(列 # 1、2 & 7) 是必须的,因为最有可能的是 U/C-POSTAG
(# 4) 和 DEPREL
(# 8).但是 LEMMA
、(X)-POSTAG
和 FEATS
列呢 (# 3、5 & 6)?它们在训练时有帮助吗,或者树库中是否包含与解析器无关的任何信息?
在当前的实现中,我们只使用以下字段。我的列索引从 1 开始。
FORM
(第 2 列)
UPOSTAG
(第 4 列)[^1]
HEAD
(第 7 列)
DEPREL
(第 8 列)
[^1]:如果使用粗略的词性标记 (-cPOS
) 进行解析,我们改为阅读第 5 列。
其他所有内容都可以为空,只要您不破坏 CoNLL 格式(即,仍然在空列中包含 _
)。
查看我们在此处阅读了哪些专栏:edu.stanford.nlp.parser.nndep.Util.loadConllFile
。请注意,这些对于 CoNLL-X 和 CoNLL-U 表示都是相同的。
关于斯坦福的神经网络依赖解析器*̦ which features are used during training and testing phases? In practice, which columns in a CONLLᶸˣ 格式的数据集可以用 _ 代替,而解析器在训练时不会失去任何准确性?哪些专栏从未被阅读?
当然 ID
、FORM
和 HEAD
(列 # 1、2 & 7) 是必须的,因为最有可能的是 U/C-POSTAG
(# 4) 和 DEPREL
(# 8).但是 LEMMA
、(X)-POSTAG
和 FEATS
列呢 (# 3、5 & 6)?它们在训练时有帮助吗,或者树库中是否包含与解析器无关的任何信息?
在当前的实现中,我们只使用以下字段。我的列索引从 1 开始。
FORM
(第 2 列)UPOSTAG
(第 4 列)[^1]HEAD
(第 7 列)DEPREL
(第 8 列)
[^1]:如果使用粗略的词性标记 (-cPOS
) 进行解析,我们改为阅读第 5 列。
其他所有内容都可以为空,只要您不破坏 CoNLL 格式(即,仍然在空列中包含 _
)。
查看我们在此处阅读了哪些专栏:edu.stanford.nlp.parser.nndep.Util.loadConllFile
。请注意,这些对于 CoNLL-X 和 CoNLL-U 表示都是相同的。