如何处理具有相同 ID 但在 python 中的列中具有不同值的数据框中的记录

How to handle records in dataframe with same ID but some different values in columns in python

我正在使用 pandas 处理数据框,其中包含客户的银行(贷款)详细信息。有一个问题,因为一些唯一的贷款 ID 已经被记录了 2 次,分别对某些特征具有不同的值。我附上截图更具体。

现在您看到例如这个唯一的贷款 ID 已经被记录了 2 次。我想用 nan 值删除第二个,但我不能手动完成,因为有 4900 个类似的案例。有什么想法吗?

不是NaN值的问题,是双记录的问题。我只想为双记录而不是整个数据帧删除具有 nan 值的行 提前致谢

计算 > 1 行的行数,然后仅删除 > 1 行的 nan。

df['flag'] = df.groupby(['Loan ID', 'Credit ID'])['Loan ID'].transform('count')
df = df.loc[df['flag'] > 1].dropna(subset=['Credit Score', 'Annual Income']).drop('flag', axis=1)

不删除 nan 行,只取信用评分或年收入不是 nan 的行:

df = df[df['Credit Score'].notna()]