如何处理 big5 人格特质任务

How to handle a big5 personality traits task

我有一个数据集,其中包含 N 条推文,并用 5 大性格特征(extrovertedstableagreeableconscientiousopen).每个类别由一个实数表示。

我想为文档预测每个人格特质的分数,但我不知道应该如何处理这个任务。

一种可能性是将其分成 5 个不同的回归任务,但分类器可能会错过 5 个 类 之间的相关性(例如,某人 extroverted 编写的文档更有可能作者也是open).

另一种是应用多标签方法,但我认为这是不可能的,因为这种方法适用于有标签而不是真实值(分类而不是回归)的情况,不是吗?

Scikit-learn 有它,在这里阅读它:https://scikit-learn.org/0.22/modules/multiclass.html

"多标签分类 为每个样本分配一组目标标签。这可以被认为是预测数据点的不相互排斥的属性,例如主题与文档相关。文本可能同时与宗教、政治、金融或教育有关,或者 none 个。

Support multilabel:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neural_network.MLPClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier
sklearn.linear_model.RidgeClassifierCV

或者您可能需要这个:

"多输出回归 为每个样本分配一组目标值。这可以被认为是预测每个数据点的几个属性,例如某个位置的风向和强度某个位置。"

Support multiclass-multioutput:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier