准备训练数据集
Preparing training data sets
准备训练数据集时,目标变量数据是否需要从训练数据集中移除,还是可以保留?那么,下面代码中的 X = df[:,:]
应该排除目标变量还是它重要?
# Feature to be predicted (y)
y = df['predicted'] #target variable
#Training data
X = df[:,:]
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
你不能在特征集中留下标签,你会泄露现成的答案。
X = df.drop(columns = 'predicted')
离开或不离开目标取决于您使用的机器学习库。创建训练数据集时,一些库会为您提供一个选项来指定要使用哪些列进行训练。对于这些库,您不必从训练数据中删除任何内容。
Sklearn 没有此选项,因此您将不得不删除目标功能。
# Feature to be predicted (y)
y = df['predicted'] #target variable
#Training data
X = df.drop("predicted",1)
# here 1 is the axis which means drop a column
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
准备训练数据集时,目标变量数据是否需要从训练数据集中移除,还是可以保留?那么,下面代码中的 X = df[:,:]
应该排除目标变量还是它重要?
# Feature to be predicted (y)
y = df['predicted'] #target variable
#Training data
X = df[:,:]
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
你不能在特征集中留下标签,你会泄露现成的答案。
X = df.drop(columns = 'predicted')
离开或不离开目标取决于您使用的机器学习库。创建训练数据集时,一些库会为您提供一个选项来指定要使用哪些列进行训练。对于这些库,您不必从训练数据中删除任何内容。
Sklearn 没有此选项,因此您将不得不删除目标功能。
# Feature to be predicted (y)
y = df['predicted'] #target variable
#Training data
X = df.drop("predicted",1)
# here 1 is the axis which means drop a column
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)