使用 pandas 向量化曲线拟合数据
Vectorize curve fitting data with pandas
我想加快数据帧的处理速度,其中数据帧中的每一行都是点(图像中的红点),并且我将每一行拟合到一个多项式(图像中的蓝点):
我的数据框看起来像这样:
0 21.357071 21.357071 NaN 29.240519 20.909416 23.884323 NaN NaN 21.533360 19.145000 NaN
1 29.373487 29.373487 NaN 32.593994 26.423960 29.623251 NaN NaN 30.685534 29.297455 20.411913
2 19.116655 19.116655 NaN 27.120478 18.723265 19.857676 NaN NaN 20.249647 18.867172 NaN
我已经用下面的代码做到了:
for index,row in df.iterrows():
dataR = row[:].dropna()
x = np.array(dataR.index).astype(float) #x = column index
y = dataR.values
y = np.vstack(y).astype(np.float).T[0] #y = value
coefs = poly.polyfit(x, y, deg=4)
ffit = poly.polyval(np.arange(0,maxColumns,1), coefs)
df.loc[index,0:maxColumns] = ffit
但是我的数据框很大,所以速度很慢。我想知道我是否可以矢量化这段代码。
由于看起来您正在独立处理每一行并执行曲线拟合,而不管其他行是什么样子,我认为您可以使用 joblib 简单地并行化代码,因此您可以
from joblib import Parallel, delayed
function fit_curve(row):
dataR = row[:].dropna()
x = np.array(dataR.index).astype(float)
y = dataR.values
y = np.vstack(y).astype(np.float).T[0]
coefs = poly.polyfit(x, y, deg=4)
ffit = poly.polyval(np.arange(0,maxColumns,1), coefs)
return ffit
fitted_curves = Parallel(n_jobs=N)(delayed(fit_curve)(row) for index, row in df.iterrows())
df.loc[:,:] = fitted_curves
其中 N 是工人的数量,又名。您要为此使用的内核。
我想加快数据帧的处理速度,其中数据帧中的每一行都是点(图像中的红点),并且我将每一行拟合到一个多项式(图像中的蓝点):
我的数据框看起来像这样:
0 21.357071 21.357071 NaN 29.240519 20.909416 23.884323 NaN NaN 21.533360 19.145000 NaN
1 29.373487 29.373487 NaN 32.593994 26.423960 29.623251 NaN NaN 30.685534 29.297455 20.411913
2 19.116655 19.116655 NaN 27.120478 18.723265 19.857676 NaN NaN 20.249647 18.867172 NaN
我已经用下面的代码做到了:
for index,row in df.iterrows():
dataR = row[:].dropna()
x = np.array(dataR.index).astype(float) #x = column index
y = dataR.values
y = np.vstack(y).astype(np.float).T[0] #y = value
coefs = poly.polyfit(x, y, deg=4)
ffit = poly.polyval(np.arange(0,maxColumns,1), coefs)
df.loc[index,0:maxColumns] = ffit
但是我的数据框很大,所以速度很慢。我想知道我是否可以矢量化这段代码。
由于看起来您正在独立处理每一行并执行曲线拟合,而不管其他行是什么样子,我认为您可以使用 joblib 简单地并行化代码,因此您可以
from joblib import Parallel, delayed
function fit_curve(row):
dataR = row[:].dropna()
x = np.array(dataR.index).astype(float)
y = dataR.values
y = np.vstack(y).astype(np.float).T[0]
coefs = poly.polyfit(x, y, deg=4)
ffit = poly.polyval(np.arange(0,maxColumns,1), coefs)
return ffit
fitted_curves = Parallel(n_jobs=N)(delayed(fit_curve)(row) for index, row in df.iterrows())
df.loc[:,:] = fitted_curves
其中 N 是工人的数量,又名。您要为此使用的内核。