代词向后解析
pronoun resolution backwards
通常的共指解决方法如下:
已提供
The man likes math. He really does.
计算出
he
指的是
the man.
有很多工具可以做到这一点。
但是,有没有办法反过来做呢?
例如,
给出
The man likes math. The man really does.
我想做代词解析"backwards,"
这样我就可以得到类似
的输出
The man likes math. He really does.
我的输入文本主要是 3~10 个句子,我正在使用 python。
这也许不是一个真正令人满意的答案,但我认为答案是任何地方都没有内置这样的功能,尽管您可以自己编写代码而不会有太多困难。概述我将如何使用 CoreNLP 进行操作:
仍然运行 coref。这会告诉你 "the man" 和 "the man" 是指代的,因此你可以用代词替换第二个。
运行 来自 CoreNLP 的 gender
注释器。这是一个 poorly-documented 甚至更糟糕的广告注释器,它试图将性别附加到句子中的标记。
想办法弄清楚复数。大多数时候你可以使用 part-of-speech 标签:复数名词有 NNS 或 NNPS 标签,但有一些复杂的情况所以你可能还需要考虑 (1) 先行词中连词的存在; (2) 词的词元与其文本不同; (3) 特别是结合 2,以 's' 或 'es' 结尾的词——这可以区分去掉复数的词形还原和去掉时态的词形还原等
这足以找出正确的代词。现在只需将句子切碎并重新组合即可。如果您在 CoreNLP 中这样做,这会有点痛苦——代码没有设置为更改句子的文本——但在最坏的情况下,您总是可以 re-annotate 一个新的表面形式。
希望这能有所帮助!
通常的共指解决方法如下:
已提供
The man likes math. He really does.
计算出
he
指的是
the man.
有很多工具可以做到这一点。
但是,有没有办法反过来做呢?
例如,
给出
The man likes math. The man really does.
我想做代词解析"backwards,"
这样我就可以得到类似
的输出The man likes math. He really does.
我的输入文本主要是 3~10 个句子,我正在使用 python。
这也许不是一个真正令人满意的答案,但我认为答案是任何地方都没有内置这样的功能,尽管您可以自己编写代码而不会有太多困难。概述我将如何使用 CoreNLP 进行操作:
仍然运行 coref。这会告诉你 "the man" 和 "the man" 是指代的,因此你可以用代词替换第二个。
运行 来自 CoreNLP 的
gender
注释器。这是一个 poorly-documented 甚至更糟糕的广告注释器,它试图将性别附加到句子中的标记。想办法弄清楚复数。大多数时候你可以使用 part-of-speech 标签:复数名词有 NNS 或 NNPS 标签,但有一些复杂的情况所以你可能还需要考虑 (1) 先行词中连词的存在; (2) 词的词元与其文本不同; (3) 特别是结合 2,以 's' 或 'es' 结尾的词——这可以区分去掉复数的词形还原和去掉时态的词形还原等
这足以找出正确的代词。现在只需将句子切碎并重新组合即可。如果您在 CoreNLP 中这样做,这会有点痛苦——代码没有设置为更改句子的文本——但在最坏的情况下,您总是可以 re-annotate 一个新的表面形式。
希望这能有所帮助!