随机森林分类器
Random Forest Classifier
我正在尝试构建一个用于二项式分类的随机森林分类器。有人可以解释为什么每次我 运行 这个程序时我的准确度分数都不同吗?分数在 68% - 74% 之间变化。此外,我尝试调整参数,但我无法将准确度提高到 74 以上。对此有任何建议也将不胜感激。我尝试使用 GridSearchCV,但我只增加了 3 点。
#import libraries
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
#read data into pandas dataframe
df = pd.read_csv("data.csv")
#handle missing values
df = df.dropna(axis = 0, how = 'any')
#handle string-type data
le = preprocessing.LabelEncoder()
le.fit(['Male','Female'])
df.loc[:,'Sex'] = le.transform(df['Sex'])
#split into train and test data
df['is_train'] = np.random.uniform(0, 1, len(df)) <= 0.8
train, test = df[df['is_train'] == True], df[df['is_train'] == False]
#make an array of columns
features = df.columns[:10]
#build the classifier
clf = RandomForestClassifier()
#train the classifier
y = train['Selector']
clf.fit(train[features], train['Selector'])
#test the classifier
clf.predict(test[features])
#calculate accuracy
accuracy_score(test['Selector'], clf.predict(test[features]))
accuracy_score(train['Selector'], clf.predict(train[features]))
每次 运行 程序时,您的准确性都会发生变化,因为创建的模型不同。并且模型是不同的,因为 你在创建它时没有修复随机状态。查看 scikit-learn documentation.
中的 random_state
参数
对于你的第二个问题,你可以尝试很多方法来提高模型的准确性。按重要性排序:
- 获取更多训练数据
- 改进您的训练数据(即去除低质量特征或样本,创建新特征...)
- 调整您的学习算法的参数(RandomForest 有一些可以使用)
- 尝试另一种学习模式。
- 尝试组合不同的模型
我正在尝试构建一个用于二项式分类的随机森林分类器。有人可以解释为什么每次我 运行 这个程序时我的准确度分数都不同吗?分数在 68% - 74% 之间变化。此外,我尝试调整参数,但我无法将准确度提高到 74 以上。对此有任何建议也将不胜感激。我尝试使用 GridSearchCV,但我只增加了 3 点。
#import libraries
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
#read data into pandas dataframe
df = pd.read_csv("data.csv")
#handle missing values
df = df.dropna(axis = 0, how = 'any')
#handle string-type data
le = preprocessing.LabelEncoder()
le.fit(['Male','Female'])
df.loc[:,'Sex'] = le.transform(df['Sex'])
#split into train and test data
df['is_train'] = np.random.uniform(0, 1, len(df)) <= 0.8
train, test = df[df['is_train'] == True], df[df['is_train'] == False]
#make an array of columns
features = df.columns[:10]
#build the classifier
clf = RandomForestClassifier()
#train the classifier
y = train['Selector']
clf.fit(train[features], train['Selector'])
#test the classifier
clf.predict(test[features])
#calculate accuracy
accuracy_score(test['Selector'], clf.predict(test[features]))
accuracy_score(train['Selector'], clf.predict(train[features]))
每次 运行 程序时,您的准确性都会发生变化,因为创建的模型不同。并且模型是不同的,因为 你在创建它时没有修复随机状态。查看 scikit-learn documentation.
中的random_state
参数
对于你的第二个问题,你可以尝试很多方法来提高模型的准确性。按重要性排序:
- 获取更多训练数据
- 改进您的训练数据(即去除低质量特征或样本,创建新特征...)
- 调整您的学习算法的参数(RandomForest 有一些可以使用)
- 尝试另一种学习模式。
- 尝试组合不同的模型