如何处理类别可能随时间变化的建模分类变量?

How to handle modeling categorical variables where categories may change over time?

我遇到了关于分类变量的问题。就我而言,我的变量可能具有不同数量的级别。例如,假设我的分类变量表示 type_of_cars。最初,它只有三种类型(为了论证):gas dieselhybrid。我使用编码来表示它们。现在市场上出现了一种新型汽车eV(电动汽车)。我想知道是否有一种方法可以在不重新训练模型的情况下容纳电动汽车。

在我的例子中,分类变量大约有 50 个不同的级别,随着时间的推移可能会添加新的级别,也可能会删除旧的级别。如果可能的话,如何在每次发生时不重新训练整个模型的情况下对数据进行建模?

我们将不胜感激您的建议。

谢谢。

最好的方法是重新训练您的模型。

思考分类变量如何影响您的模型可能会有所帮助。分类变量通常被视为二进制变量,其中每个类别都是其自己的列,如果存在该类别,则该列中的行为 1,否则为 0。现在想象在您的数据中添加一个额外的列,您的模型还没有经过训练,就像一个新类别的情况一样……这将导致次优性能。这个新列很可能不会影响模型预测。

有您所建议的示例,但它们需要将次要模型输入到主要模型中。我们在自然语言处理中经常看到这种情况,其中有一个文本相似度模型(词向量),然后将该模型输入到另一个预测文本类别和情感等内容的模型中。

所以基本上,如果您可以对分类变量的相似性(这是您的次要模型)建模,并将该模型输入主要模型,那么您只需要在获得新数据时更新您的次要模型。但是这种方法有它的问题...