如何检测 NLTK Python 中文本的不确定性?

How to detect uncertainty of text in NLTK Python?

我是 NLTK 和机器学习的初学者,目标是对句子进行不确定性评级。 例如,像 This is likely caused by a.. 这样的句子会得到 6 分,而 There is definitely something wrong with me 会得到 10 分,而 I think it could possibly happen 会得到 3 分。

不管评分系统如何,"certain"和"uncertain"的分类也能满足我的需要

我没有找到任何关于此的现有作品。我将如何处理这个?我确实有一些未经训练的文本数据。

据我所知,现有的nlp工具包没有这样的功能。

您必须训练自己的模型,为此您需要训练数据。如果您的数据集包含每个句子的不确定性标签,那么您可以在其上训练文本分类模型。

如果您没有标记数据,则在检测 uncertainty/hedging 时有一个 CoNLL 2010 Shared task,并且该数据集应该可用。 您可以访问 CoNLL 2010 数据集并在其上训练一个简单的文本分类器,然后在您自己的数据集上使用经过训练的模型。假设您的数据的性质与他们的没有太大不同,这应该有效。

对于文本分类,您可以简单地使用直接直接的 scikit-learn 库。

您可能还会发现以下参考有用: