模型构建方法
Model building methodology
我碰巧有一个4000行的数据集,其中目标变量有3999个1,只有一个0。
是一个季度的数据,我要计算下个季度成功的概率。这里应用逻辑回归是否可行?
或者有人可以为我提供更好的选择吗?
我同意数据集太不平衡了。一个反例不能具有统计显着性。此外,您无法进行交叉验证,因此您甚至无法验证您的模型。
您可以尝试在较低维度上可视化数据,以检查负样本是否明显是离群值。您可以查找 'anomaly detection' 主题以了解更多信息。
但是,如果下个季度出现 1,您将找不到答案,因为数据不正确。有了这样的数据,如果你能有更多的负面例子,你就可以预测下一个具有给定特征的新样本的标签。这不是下个季度出现类似数据集的概率的答案。
我碰巧有一个4000行的数据集,其中目标变量有3999个1,只有一个0。
是一个季度的数据,我要计算下个季度成功的概率。这里应用逻辑回归是否可行?
或者有人可以为我提供更好的选择吗?
我同意数据集太不平衡了。一个反例不能具有统计显着性。此外,您无法进行交叉验证,因此您甚至无法验证您的模型。
您可以尝试在较低维度上可视化数据,以检查负样本是否明显是离群值。您可以查找 'anomaly detection' 主题以了解更多信息。
但是,如果下个季度出现 1,您将找不到答案,因为数据不正确。有了这样的数据,如果你能有更多的负面例子,你就可以预测下一个具有给定特征的新样本的标签。这不是下个季度出现类似数据集的概率的答案。