如何对庞大的数据集进行交叉验证和超参数调优？

how to do cross validation and hyper parameter tuning for huge dataset?

我有一个 10+gb 的 csv 文件，我使用了 pandas.read_csv() 中可用的 "chunksize" 参数来读取和预处理数据，训练模型想要使用一个在线学习算法。

通常对整个训练数据集进行交叉验证和超参数调整，并使用最佳超参数训练模型，但在大数据的情况下，如果我在块上做同样的事情训练数据如何选择超参数？

我相信您正在寻找像本文link Scaling Strategies for large datasets 中提到的那些在线学习算法。您应该使用支持 partial_fit 参数的算法来分块加载这些大型数据集。您还可以查看以下 link 以了解哪一个对您的帮助最大，因为您尚未指定确切的问题或您正在处理的算法：

Numpy save partial results in RAM
Scalling Computationally - Sklearn
Using Large Datasets in Sklearn
Comparision of various Online Sovers -Sklearn

编辑：如果你想解决class不平衡问题，你可以试试这个：imabalanced-learn library in Python

如何对庞大的数据集进行交叉验证和超参数调优？

how to do cross validation and hyper parameter tuning for huge dataset?

python

machine-learning

scikit-learn

data-science