如何对庞大的数据集进行交叉验证和超参数调优?
how to do cross validation and hyper parameter tuning for huge dataset?
我有一个 10+gb 的 csv 文件,我使用了 pandas.read_csv() 中可用的 "chunksize" 参数来读取和预处理数据,训练模型想要使用一个在线学习算法。
通常对整个训练数据集进行交叉验证和超参数调整,并使用最佳超参数训练模型,但在大数据的情况下,如果我在块上做同样的事情训练数据如何选择超参数?
我相信您正在寻找像本文link Scaling Strategies for large datasets 中提到的那些在线学习算法。您应该使用支持 partial_fit
参数的算法来分块加载这些大型数据集。您还可以查看以下 link 以了解哪一个对您的帮助最大,因为您尚未指定确切的问题或您正在处理的算法:
- Numpy save partial results in RAM
- Scalling Computationally - Sklearn
- Using Large Datasets in Sklearn
- Comparision of various Online Sovers -Sklearn
编辑:如果你想解决class不平衡问题,你可以试试这个:imabalanced-learn library in Python
我有一个 10+gb 的 csv 文件,我使用了 pandas.read_csv() 中可用的 "chunksize" 参数来读取和预处理数据,训练模型想要使用一个在线学习算法。
通常对整个训练数据集进行交叉验证和超参数调整,并使用最佳超参数训练模型,但在大数据的情况下,如果我在块上做同样的事情训练数据如何选择超参数?
我相信您正在寻找像本文link Scaling Strategies for large datasets 中提到的那些在线学习算法。您应该使用支持 partial_fit
参数的算法来分块加载这些大型数据集。您还可以查看以下 link 以了解哪一个对您的帮助最大,因为您尚未指定确切的问题或您正在处理的算法:
- Numpy save partial results in RAM
- Scalling Computationally - Sklearn
- Using Large Datasets in Sklearn
- Comparision of various Online Sovers -Sklearn
编辑:如果你想解决class不平衡问题,你可以试试这个:imabalanced-learn library in Python