如何检测 NLTK Python 中文本的不确定性？

How to detect uncertainty of text in NLTK Python?

我是 NLTK 和机器学习的初学者，目标是对句子进行不确定性评级。例如，像 This is likely caused by a.. 这样的句子会得到 6 分，而 There is definitely something wrong with me 会得到 10 分，而 I think it could possibly happen 会得到 3 分。

不管评分系统如何，"certain"和"uncertain"的分类也能满足我的需要

我没有找到任何关于此的现有作品。我将如何处理这个？我确实有一些未经训练的文本数据。

据我所知，现有的nlp工具包没有这样的功能。

您必须训练自己的模型，为此您需要训练数据。如果您的数据集包含每个句子的不确定性标签，那么您可以在其上训练文本分类模型。

如果您没有标记数据，则在检测 uncertainty/hedging 时有一个 CoNLL 2010 Shared task，并且该数据集应该可用。您可以访问 CoNLL 2010 数据集并在其上训练一个简单的文本分类器，然后在您自己的数据集上使用经过训练的模型。假设您的数据的性质与他们的没有太大不同，这应该有效。

对于文本分类，您可以简单地使用直接直接的 scikit-learn 库。

您可能还会发现以下参考有用：

鲁宾、维多利亚等人。 "文本中的确定性标识：分类模型和人工标注结果。”计算文本中的态度和影响：理论和应用。 2006. 61-76.
Medlock、Ben 和 Ted Briscoe。 "对冲的弱监督学习科学文献中的分类。”ACL. Vol. 2007. 2007.

如何检测 NLTK Python 中文本的不确定性？

How to detect uncertainty of text in NLTK Python?

python

nlp

artificial-intelligence

nltk