预测分析中的训练集和评估集可以相同吗?

Can training and evaluation sets be the same in predictive analytics?

我正在创建一个模型来预测客户将在一家销售产品 A 到 Z 的百货商店购买产品 A 的概率。该商店拥有自己的信用卡,其中包含 140,000 名客户的人口统计和交易信息。

有一部分客户(比如 10,000)目前购买了 A。目标是从这些客户中学习 10,000 名客户并根据他们购买 A 的概率对剩余的 130,000 名客户进行评分,然后将得分最高的客户作为目标开展营销活动以提高 A 销量。

我应该如何定义我的训练集和评估集?

训练集:

应该只买A的10,000人还是全部140k客户?

评估集:(模型将用于生产)

相信这应该是没买A的130k吧

关于时间的问题:

另一种方法是拍摄去年数据库的照片,将其用作训练集,然后使用今天的数据库并使用去年的信息创建的模型评估所有客户。这个对吗?我应该什么时候这样做?

哪个选项对所有集合都是正确的?

训练集和评估集必须不同。拥有评估集的全部意义在于防止过度拟合。

在这种情况下,您应该随机选择 100,000 名客户。然后使用这些数据尝试了解使他们可能购买 A 的客户的哪些方面。然后使用剩余的 40,000 个来测试您的模型的效果。