解释用于文本分类的随机森林模型
interpert random forest model for text classificaiton
我有一个文本数据集,我在其中手动将每条记录分类为两种可能 类 中的一种。我在语料库上创建了一个 TFIDF,没有英语停用词,trained/tested 一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。到目前为止一切都很好,但是如何找到更多关于我的模型的信息,即如何找出哪些词是 "important" 模型?
经过训练的RF应该有一个属性feature_importances_
。我认为您必须使用 oob_score=True
(在构造函数中)训练模型。特征重要性将告诉您哪些特征(数据矩阵列)具有影响力。要获取单词,您返回到 tfidf 向量化器并获取其 vocabulary_
属性(注意尾随的下划线),这是从单词到列索引的字典。
有关 vocabulary_ 属性的解释,请参阅此 post:
我有一个文本数据集,我在其中手动将每条记录分类为两种可能 类 中的一种。我在语料库上创建了一个 TFIDF,没有英语停用词,trained/tested 一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。到目前为止一切都很好,但是如何找到更多关于我的模型的信息,即如何找出哪些词是 "important" 模型?
经过训练的RF应该有一个属性feature_importances_
。我认为您必须使用 oob_score=True
(在构造函数中)训练模型。特征重要性将告诉您哪些特征(数据矩阵列)具有影响力。要获取单词,您返回到 tfidf 向量化器并获取其 vocabulary_
属性(注意尾随的下划线),这是从单词到列索引的字典。
有关 vocabulary_ 属性的解释,请参阅此 post: