如何检测 NLTK Python 中文本的不确定性?
How to detect uncertainty of text in NLTK Python?
我是 NLTK 和机器学习的初学者,目标是对句子进行不确定性评级。
例如,像 This is likely caused by a..
这样的句子会得到 6 分,而 There is definitely something wrong with me
会得到 10 分,而 I think it could possibly happen
会得到 3 分。
不管评分系统如何,"certain"和"uncertain"的分类也能满足我的需要
我没有找到任何关于此的现有作品。我将如何处理这个?我确实有一些未经训练的文本数据。
据我所知,现有的nlp工具包没有这样的功能。
您必须训练自己的模型,为此您需要训练数据。如果您的数据集包含每个句子的不确定性标签,那么您可以在其上训练文本分类模型。
如果您没有标记数据,则在检测 uncertainty/hedging 时有一个 CoNLL 2010 Shared task,并且该数据集应该可用。
您可以访问 CoNLL 2010 数据集并在其上训练一个简单的文本分类器,然后在您自己的数据集上使用经过训练的模型。假设您的数据的性质与他们的没有太大不同,这应该有效。
对于文本分类,您可以简单地使用直接直接的 scikit-learn 库。
您可能还会发现以下参考有用:
鲁宾、维多利亚等人。 "文本中的确定性标识:
分类模型和人工标注结果。”计算
文本中的态度和影响:理论和应用。 2006. 61-76.
Medlock、Ben 和 Ted Briscoe。 "对冲的弱监督学习
科学文献中的分类。”ACL. Vol. 2007. 2007.
我是 NLTK 和机器学习的初学者,目标是对句子进行不确定性评级。
例如,像 This is likely caused by a..
这样的句子会得到 6 分,而 There is definitely something wrong with me
会得到 10 分,而 I think it could possibly happen
会得到 3 分。
不管评分系统如何,"certain"和"uncertain"的分类也能满足我的需要
我没有找到任何关于此的现有作品。我将如何处理这个?我确实有一些未经训练的文本数据。
据我所知,现有的nlp工具包没有这样的功能。
您必须训练自己的模型,为此您需要训练数据。如果您的数据集包含每个句子的不确定性标签,那么您可以在其上训练文本分类模型。
如果您没有标记数据,则在检测 uncertainty/hedging 时有一个 CoNLL 2010 Shared task,并且该数据集应该可用。 您可以访问 CoNLL 2010 数据集并在其上训练一个简单的文本分类器,然后在您自己的数据集上使用经过训练的模型。假设您的数据的性质与他们的没有太大不同,这应该有效。
对于文本分类,您可以简单地使用直接直接的 scikit-learn 库。
您可能还会发现以下参考有用:
鲁宾、维多利亚等人。 "文本中的确定性标识: 分类模型和人工标注结果。”计算 文本中的态度和影响:理论和应用。 2006. 61-76.
Medlock、Ben 和 Ted Briscoe。 "对冲的弱监督学习 科学文献中的分类。”ACL. Vol. 2007. 2007.