插值仍然留有 NaN 的 (pandas groupby)

Interpolation still leaving NaN's (pandas groupby)

我有一个包含一些客户位置的 Dataframe(所以我有一个包含 Customer_id 的列,其他列包含 Lat 和 Lon),我正在尝试根据每个客户插入 NaN。

例如,如果我在这里用最近的方法进行插值(我在这里补了值):

 Customer_id   Lat    Lon
   A            1      1
   A            NaN    NaN  
   A            2      2      
   B            NaN    NaN
   B            4      4

我希望 B 的 NaN 为 4 而不是 2。

我试过了

series.groupby('Customer_id').apply(lambda group: group.interpolate(method = 'nearest', limit_direction = 'both'))

NaN 的数量从 9003 下降到 94。但我不明白为什么它仍然留下一些缺失值。

我检查了一下,这 94 个缺失值对应于已经被插入的客户记录。例如,

    Customer_id   Lat
 0.    A           1
 1.    A           NaN
 2.    A           NaN
 3.    A           NaN
 4.    A           NaN

它会正确插值直到某个值(假设它正确地插值 1、2 和 3),然后将 4 保留为 NaN。

我已尝试将插值限制设置为大于每个客户端的最大记录数,但仍然无法解决。我不知道我的错误在哪里,有人可以帮忙吗?

(我不知道是否值得提及,但我为此编造了自己的 NaN。这是我使用的代码 我认为问题不在这里,但因为我'我很困惑问题到底出在哪里,我就把它留在这里)

当您使用 nearest 进行插值时,它只能填充 in-between 缺失值。 (您会注意到这一点,因为当只有 1 个 non-null 值时会出现错误,就像在您的示例中一样)。剩余的空值是 "edges",由 .bfill().ffill() 处理 nearest 逻辑。这也是只有一个 non-missing 值的 "interpolate" 的适当逻辑。

def my_interp(x):
    if x.notnull().sum() > 1:
        return x.interpolate(method='nearest').ffill().bfill()
    else:
        return x.ffill().bfill()

df.groupby('Customer_id').transform(my_interp)

#   Lat  Lon
#0  1.0  1.0
#1  1.0  1.0
#2  2.0  2.0
#3  4.0  4.0
#4  4.0  4.0