将自定义函数插入 pandas 系列
interpolating custom function to pandas series
这是一个 df:
2005-01-24 117.0
2005-02-22 NaN
2005-03-21 NaN
2005-04-18 114.0
2005-05-23 NaN
2005-06-20 NaN
2005-07-18 122.0
并且预期的输出是让下限值和上限值的平均值填充 NaN 值,如下所示:
2005-01-24 117.0
2005-02-22 115.5 (117-114 / 2)
2005-03-21 115.5
2005-04-18 114.0
2005-05-23 118.0 (122-114 / 2)
2005-07-18 122.0
据我所知,df.interpolate() 不允许您传递函数?还尝试尝试 .rolling(2).mean() 并重新索引但没有成功。
假设您的数据在系列 s 中:
import pandas as pd
import numpy as np
s = pd.Series({'2005-01-24': 117.0,
'2005-02-22': np.nan,
'2005-03-21': np.nan,
'2005-04-18': 114.0,
'2005-05-23': np.nan,
'2005-06-20': np.nan,
'2005-07-18': 122.0})
你可以使用ffill和bfill求上下限,然后取均值。
s.ffill().add(s.bfill()).div(2)
Out[71]:
2005-01-24 117.0
2005-02-22 115.5
2005-03-21 115.5
2005-04-18 114.0
2005-05-23 118.0
2005-06-20 118.0
2005-07-18 122.0
dtype: float64
这是一个 df:
2005-01-24 117.0
2005-02-22 NaN
2005-03-21 NaN
2005-04-18 114.0
2005-05-23 NaN
2005-06-20 NaN
2005-07-18 122.0
并且预期的输出是让下限值和上限值的平均值填充 NaN 值,如下所示:
2005-01-24 117.0
2005-02-22 115.5 (117-114 / 2)
2005-03-21 115.5
2005-04-18 114.0
2005-05-23 118.0 (122-114 / 2)
2005-07-18 122.0
据我所知,df.interpolate() 不允许您传递函数?还尝试尝试 .rolling(2).mean() 并重新索引但没有成功。
假设您的数据在系列 s 中:
import pandas as pd
import numpy as np
s = pd.Series({'2005-01-24': 117.0,
'2005-02-22': np.nan,
'2005-03-21': np.nan,
'2005-04-18': 114.0,
'2005-05-23': np.nan,
'2005-06-20': np.nan,
'2005-07-18': 122.0})
你可以使用ffill和bfill求上下限,然后取均值。
s.ffill().add(s.bfill()).div(2)
Out[71]:
2005-01-24 117.0
2005-02-22 115.5
2005-03-21 115.5
2005-04-18 114.0
2005-05-23 118.0
2005-06-20 118.0
2005-07-18 122.0
dtype: float64