一件事用许多不同的词清理数据集

Clean dataset with many dfferent words for one thing

目前我有一个成分数据集。问题是它不是很干净,因为它包含同一事物的许多不同名称。这里有几个例子:

Mehl = Weizenmehl, Mehl Type360

Eier = Eier, Ei(er), Ei

我考虑过删除那些括号并​​制作许多 if 语句,这些语句正在寻找不同的东西,比如“Mehl”,但在那里我还必须寻找像“Dinkel”这样的东西,因为

Dinkelmehl != Mehl

我可以做到,但是会很费力,因为那是一个很大的数据集。还有其他一些方法可能与字典或其他东西有关吗?希望大家能帮帮我谢谢!

弗雷德里克!

是的,您可以使用 pandas 中的地图方法。首先,我建议清除特殊字符 (!"#$%&/) 并将地图用于 Eier、Ei、Mehl、Tomaten....

我附上地图的文档:map in df pandas

VG