X_train、y_train 来自转换后的数据

Question

数据转换后如何分别得到X_train和y_train

代码

from sklearn.pipeline import Pipeline 
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.preprocessing import StandardScaler 


DATA=pd.read_csv("/storage/emulated/0/Download/iris-write-from-docker.csv")

X = DATA.drop(["class"], axis = 'columns')
y = DATA["class"].values
        
X_train, X_test, y_train, y_test=train_test_split(X,y,test_size=0.25,random_state = 42)
                                 
pipe=Pipeline(steps=[('clf',StandardScaler())])
dta=pipe.fit_transform(X_train,y_train)

print(dta)

#print(X_train,y_train) from dta

我想从 dta

获得转换后的 X_train 和 y_train

Answer 1

fit_transform() 的输出是 X_train 的转换版本。 y_train 在管道的 fit_transform() 期间未使用。

因此，您可以简单地执行以下操作来检索转换后的 X_train，因为 y_train 保持不变：

pipe=Pipeline(steps=[('clf',StandardScaler())])
X_train_scaled = pipe.fit_transform(X_train)

X_train、y_train 来自转换后的数据

X_train, y_train from transformed data

python

scikit-learn