一件事用许多不同的词清理数据集
Clean dataset with many dfferent words for one thing
目前我有一个成分数据集。问题是它不是很干净,因为它包含同一事物的许多不同名称。这里有几个例子:
Mehl = Weizenmehl, Mehl Type360
或
Eier = Eier, Ei(er), Ei
我考虑过删除那些括号并制作许多 if 语句,这些语句正在寻找不同的东西,比如“Mehl”,但在那里我还必须寻找像“Dinkel”这样的东西,因为
Dinkelmehl != Mehl
我可以做到,但是会很费力,因为那是一个很大的数据集。还有其他一些方法可能与字典或其他东西有关吗?希望大家能帮帮我谢谢!
弗雷德里克!
是的,您可以使用 pandas 中的地图方法。首先,我建议清除特殊字符 (!"#$%&/) 并将地图用于 Eier、Ei、Mehl、Tomaten....
我附上地图的文档:map in df pandas
VG
目前我有一个成分数据集。问题是它不是很干净,因为它包含同一事物的许多不同名称。这里有几个例子:
Mehl = Weizenmehl, Mehl Type360
或
Eier = Eier, Ei(er), Ei
我考虑过删除那些括号并制作许多 if 语句,这些语句正在寻找不同的东西,比如“Mehl”,但在那里我还必须寻找像“Dinkel”这样的东西,因为
Dinkelmehl != Mehl
我可以做到,但是会很费力,因为那是一个很大的数据集。还有其他一些方法可能与字典或其他东西有关吗?希望大家能帮帮我谢谢!
弗雷德里克!
是的,您可以使用 pandas 中的地图方法。首先,我建议清除特殊字符 (!"#$%&/) 并将地图用于 Eier、Ei、Mehl、Tomaten....
我附上地图的文档:map in df pandas
VG