斯坦福解析器输出与演示输出不匹配
Stanford parser output doesn't match demo output
如果我将 Stanford CoreNLP 神经网络依赖解析器与 english_SD 模型一起使用,根据网站(link, bottom of the page), it provides completely different results compared to this demo,我认为它基于 LexicalizedParser(或在至少其他一个)。
如果我在演示页面中输入句子我不喜欢这辆车,结果如下:
如果我将同一个句子放入神经网络解析器,结果如下:
在神经网络解析器的结果中,一切都取决于喜欢。我认为这可能是由于不同的 POS-Tags,但我使用了 CoreNLP Maxent Tagger 和 english-bidirectional-distsim.tagger 模型,我认为这很常见。对此有什么想法吗?
默认情况下,我们使用 english-left3words-distsim.tagger
模型作为标注器,它比双向模型更快,但偶尔会产生更差的结果。由于演示页面上使用的选区解析器和您使用的神经网络依赖解析器都严重依赖词性标记,因此不同的词性序列导致不同的解析并不奇怪,尤其是当主要动词有功能词标签(IN
= 介词)而不是实词标签(VB
= 动词,基本形式)。
但还要注意,演示在新的 Universal Dependencies 表示中输出依存关系解析,而 english_SD
模型将句子解析为旧的 Stanford 依存关系表示。对于您的示例句子,正确的解析实际上是相同的,但您会看到其他句子的差异,特别是如果它们具有在新表示中被不同对待的介词短语。
如果我将 Stanford CoreNLP 神经网络依赖解析器与 english_SD 模型一起使用,根据网站(link, bottom of the page), it provides completely different results compared to this demo,我认为它基于 LexicalizedParser(或在至少其他一个)。
如果我在演示页面中输入句子我不喜欢这辆车,结果如下:
如果我将同一个句子放入神经网络解析器,结果如下:
在神经网络解析器的结果中,一切都取决于喜欢。我认为这可能是由于不同的 POS-Tags,但我使用了 CoreNLP Maxent Tagger 和 english-bidirectional-distsim.tagger 模型,我认为这很常见。对此有什么想法吗?
默认情况下,我们使用 english-left3words-distsim.tagger
模型作为标注器,它比双向模型更快,但偶尔会产生更差的结果。由于演示页面上使用的选区解析器和您使用的神经网络依赖解析器都严重依赖词性标记,因此不同的词性序列导致不同的解析并不奇怪,尤其是当主要动词有功能词标签(IN
= 介词)而不是实词标签(VB
= 动词,基本形式)。
但还要注意,演示在新的 Universal Dependencies 表示中输出依存关系解析,而 english_SD
模型将句子解析为旧的 Stanford 依存关系表示。对于您的示例句子,正确的解析实际上是相同的,但您会看到其他句子的差异,特别是如果它们具有在新表示中被不同对待的介词短语。