小数据集上的参数选择是否适合总数据集
Whether parameter selection on small dataset will suit for total dataset
我在做参数选择的时候,总是需要很多选择来进行网格搜索。例如,我想检查随机森林树的 NumOfTrees 和 MaxDepth,如果我在第一个参数中有 M1 选择,在第二个参数中有 M2 选择,它将搜索 M1*M2 可能性。
因此,如果数据集很大,则在整个数据集上进行参数搜索的成本很高。
我的问题是,我是否可以使用较小的数据集(例如总数据为 180 天,但较小的数据为 30 天)进行参数搜索,并将所选参数视为总数据最好的参数?如果不是,它们之间的差异有多大?谢谢。
这取决于您 30 天的数据是否代表您的整个时间段。换句话说,您的目标在输入特征上应该具有相似的分布,i) 您用于参数选择的 30 天和 ii) 您想要预测的未来时间。
例如。以下情况无效:
您的数据可能具有某种季节性。您的 9 月客户购买数据不利于调整参数以预测圣诞节季节的客户交易。通常在圣诞节期间,流量明显更大,type/category 产品也大不相同。
我在做参数选择的时候,总是需要很多选择来进行网格搜索。例如,我想检查随机森林树的 NumOfTrees 和 MaxDepth,如果我在第一个参数中有 M1 选择,在第二个参数中有 M2 选择,它将搜索 M1*M2 可能性。
因此,如果数据集很大,则在整个数据集上进行参数搜索的成本很高。
我的问题是,我是否可以使用较小的数据集(例如总数据为 180 天,但较小的数据为 30 天)进行参数搜索,并将所选参数视为总数据最好的参数?如果不是,它们之间的差异有多大?谢谢。
这取决于您 30 天的数据是否代表您的整个时间段。换句话说,您的目标在输入特征上应该具有相似的分布,i) 您用于参数选择的 30 天和 ii) 您想要预测的未来时间。
例如。以下情况无效:
您的数据可能具有某种季节性。您的 9 月客户购买数据不利于调整参数以预测圣诞节季节的客户交易。通常在圣诞节期间,流量明显更大,type/category 产品也大不相同。