如果我的分类变量数量不固定,则无法为我的模型准备训练数据

Not able to prepare a training data for my model if my number of categorical variables are not fixed

我正在尝试解决工厂合并订单中包含的产品的回归问题。

我有合并工厂合并一个订单所花费的总时间。 问题来了。

当两个不同数量的产品合并在一起时,他们需要一定的时间才能得到merged.But有时会有两个以上不同数量的产品进入一个订单,合并工厂正在合并那。

我有工厂合并每个订单所花费的总时间。 合并中心要合并的产品数量可以是 1 到 n 之间的任意一个。

如何为我的模型准备训练数据以理解这一点?

 ProductCode ProdQty  

x1           1                

x2           4                

上面的例子用了 143 个小时

 ProductCode ProdQty  

x1           1                

x2           4     

x3           7           

上面的例子现在用了 200 个小时。

现在,在第一个示例中,合并中心花费了 143 个小时,其中有两个不同数量的产品,在第二个示例中,三个产品参与其中,耗时 200 个小时。

如何准备训练数据以便我的模型能够理解它并且我可以预测工厂将花费多少时间?

我还有很多其他功能,但这是特定于订单的,但我知道如何处理。

像这样:

x1 x2 x3 x4 ... xn y
1  4  0  0      0  143
1  4  7  0      0  200

在这里,您的因变量 y,即每个包裹放在一起所花费的时间,是进入该包裹的所有 x 数量的函数。您的目标是减少单个数量的包装时间。在训练数据的第一行中,x3x4 等值均为零,因为它们未按需要 143 小时准备的顺序出现。在第二行中,x4x5 等值均为零,因为它们不存在于需要 200 小时准备的顺序中。

您现在可以 运行 对所有 x 值进行 y 回归,当有人说“我有一个新订单 10 x5,2 x3 和 7 x7,您只需将这三个数字代入估计方程即可得出您想要的预测 y.

希望这能回答您的数据问题。如果您需要对此结构进行任何澄清或修改,请发表评论。


加法:

如果您有影响打包时间的额外变量,您也可以将它们添加为列。假设您想使用温度、收到订单的时间、工人人数以及仓库经理是谁(只是编造的)来预测包装时间。你可以这样做:

x1 x2 x3 x4 ... xn temp orderTime workers manager y
1  4  0  0      0   20  5AM       5       John    143
1  4  7  0      0   30  11AM      3       George  200

当然,其中一些新功能需要虚拟化、分类等;而您原来的 x 数量只是连续变量。