3 类(正面、中性和负面)的情绪分析?

Sentiment Analysis with 3 classes (positive, neutral, and negative)?

我想用 3 classes(正面、中性和负面)进行情绪分析。我已经看到很多关于情绪分析的工作,有两个 classes(正面和负面),但很少有 3 classes。如果我想在 Scikit-learn 中使用词袋法和 classifier(例如逻辑回归或 SVM),这将如何工作?用 3 classes 预测我的输出的步骤是什么?

我是否必须将每个 class 视为二进制 class化并做一些事情来组合结果,或者 sklearn 是否能够为我做一些处理所以我不必指定这个?

存在三种可能的方法:

  1. 使用 multiclass algorithms,例如逻辑回归或决策树(它们本质上是多类的)或一对一或一对一的包装器用于 SVM 等二元算法。
  2. 如果您想利用中性文本是 "somewhere between" 正面和负面的事实,您可以使用有序分类模型,例如 mord 包中的有序逻辑回归。
  3. 如果您想利用 类 的顺序,但又想留在 scikit-learn 中,我建议您先将任何回归模型拟合到您的数据(例如梯度增强回归器),然后使用基于其预测的逻辑回归。