识别介词和个别词性

Identify prepositons and individual POS

我正在尝试为段落中的每个单词找到正确的词性。我正在使用 Stanford POS Tagger。但是,我卡在了一个点上。

我想识别段落中的介词。

Penn Treebank 标签集说:

IN  Preposition or subordinating conjunction

如何确定当前单词是介词还是从属连词。在这种情况下,如何只从段落中提取介词?

你不能确定。这种有点奇怪的 PoS 的原因是很难自动确定,例如,for 是介词还是从属连词。所以为了让自动标注器有更好的精度,这个区别被简单地忽略了。请注意,还有一个标签 TO,它被赋予 的任何出现,而不管它作为介词、不定式粒子或其他什么的功能(我认为还有其他).

如果您需要正确识别介词,则需要使用修改后的标签集重新训练标注器,或者训练采用 PoS 标记文本的分类器,并且只进行最后的消歧。

我对理解这个词到底是介词还是从属连词有了一些突破。

我已经解析了以下句子:

She left early because Mike arrived with his new girlfriend.

(这里因为是从属连词)

POS 标记后

She_PRP left_VBD early_RB because_IN Mike_NNP arrived_VBD with_IN his_PRP$ new_JJ girlfriend_NN ._.

这里,为了确保因为是不是介词我已经分析了句子。

这里因为在IN之后有直接父作为SBAR(从句)作为根。

with 也属于 IN 但它的直接父项是 PP 所以它是一个介词。

示例 2:

Keep your hand on the wound until the nurse asks you to take it off. (here until is coordinating conjunction )

词性标记为:

Keep_VB your_PRP$ hand_NN on_IN the_DT wound_NN until_IN the_DT nurse_NN asks_VBZ you_PRP to_TO take_VB it_PRP off_RP ._.

因此,until 和 on 被标记为 IN

然而,当我们实际解析句子时,图片会变得更清晰。

最后我得出结论,因为是从属连词,with是介词。

尝试了多种句子变体.. 除了 beforeafter 的某些情况外,几乎对所有句子都有效。