用 JAVA 中的词汇信息(中心词)注释树库
Annotating a treebank with lexical information (Head Words) in JAVA
我有一个树库,每个句子都有句法分析树,如下所示:
(S(NP(DT)(NN政府))(VP(VBZ费)(SBAR(IN那)(S(PP(IN之间)(NP(NNP七月)( CD 1971)) (CC and) (NP (NNP July) (CD 1992))) (, ,) (NP (NNP Rostenkowski)) (VP (VBD placed) (NP (CD 14) (NNS people)) (PP (IN on) (NP (NP (PRP$ his) (JJ congressional) (NN payroll)) (SBAR (WHNP (WP who)) (S (VP (VBD performed) (NP (NP (JJ personal) (NNS services )) (PP (IN for) (NP (NP (PRP his)) (CC and) (NP (PRP$ his) (NN family)))))))))))))
我想为解析树中的每个节点使用 headwords 等词法信息来注释解析树。
我可以使用 StanfordCoreNLP 做到这一点吗?请指导我正确的方向。我更喜欢可以在 JAVA 中实现的解决方案,因为我熟悉 JAVA。
非常感谢!
您可能正在寻找 词形还原 工具。 StandfordNLP 支持它,参见 Lemmatization java。
如何在现有树库中包含引理基本上取决于您想要做什么。应该使用哪些其他工具来处理这个树库?特别是,他们期望什么格式?等等...
您可以使用 TreeTransformer
interface. Use a HeadFinder
(if you're parsing English, the CollinsHeadFinder
) 来构建它以检索每个节点的中心词/中心成分。
您可以在解析器的 TreeAnnotator
中看到此类工作的示例。
我有一个树库,每个句子都有句法分析树,如下所示:
(S(NP(DT)(NN政府))(VP(VBZ费)(SBAR(IN那)(S(PP(IN之间)(NP(NNP七月)( CD 1971)) (CC and) (NP (NNP July) (CD 1992))) (, ,) (NP (NNP Rostenkowski)) (VP (VBD placed) (NP (CD 14) (NNS people)) (PP (IN on) (NP (NP (PRP$ his) (JJ congressional) (NN payroll)) (SBAR (WHNP (WP who)) (S (VP (VBD performed) (NP (NP (JJ personal) (NNS services )) (PP (IN for) (NP (NP (PRP his)) (CC and) (NP (PRP$ his) (NN family)))))))))))))
我想为解析树中的每个节点使用 headwords 等词法信息来注释解析树。
我可以使用 StanfordCoreNLP 做到这一点吗?请指导我正确的方向。我更喜欢可以在 JAVA 中实现的解决方案,因为我熟悉 JAVA。
非常感谢!
您可能正在寻找 词形还原 工具。 StandfordNLP 支持它,参见 Lemmatization java。
如何在现有树库中包含引理基本上取决于您想要做什么。应该使用哪些其他工具来处理这个树库?特别是,他们期望什么格式?等等...
您可以使用 TreeTransformer
interface. Use a HeadFinder
(if you're parsing English, the CollinsHeadFinder
) 来构建它以检索每个节点的中心词/中心成分。
您可以在解析器的 TreeAnnotator
中看到此类工作的示例。