根据先前数据的概率生成数据组合

Generating combinations of data based on probability of previous data

我有以下类型的数据集(示例):

食物类型:中国菜、印度菜、泰国菜、墨西哥菜

成分1:盐、中国盐

成分 2:辣椒、红辣椒、泰国辣椒、青辣椒

成分 3:姜黄、豆蔻、

食材 4:鸡肉、牛肉、鱼肉、豆腐

我有一些手工制作的数据组合,我根据成分和食谱将它们分类为不同的食物类型。我需要根据最可能的组合生成更多数据。到目前为止,我采用的一种方法是生成所有成分的所有组合,然后根据之前的学习将它们分类为食物类型。但由于数据量很大,这种方法并不实用。每个类别的成分可以有超过 30-40 个值。此外,成分不仅仅是 4,它们在真实数据集中更多。我正在寻找比我已经提出的方法更好的方法来生成和分类数据。我已经应用 NB 分类器对数据进行分类。非常感谢您的帮助

由于我已经超过 4 个四个月没有收到任何回复,我想到发布我的解决方案,这可能会对其他人有所帮助。

我使用的技术是从每个属性类型(在我的例子中是食物类型)中获取前五个最重要的特征。然后我组合了所有这些功能。对于其余的特征,我随机选择了一个值。这生成了大小可控的新数据。

如果您需要任何说明,请随时询问。