如何使用旧数据框中的信息预测新 Python 数据框中列的值
How to predict values of column in new Python data frame using info from the old data frame
假设我有两个数据帧 df1 和 df2。在 df1 中,我有几个列,例如 userid、sexid、location 等。在 df2 中,我有与 df1 中所有相同的列,除了 sexid,我需要使用一些预测算法来填充它。
我只是一个初学者,我尝试了另一种问题。所以欢迎任何可以帮助我破解它的建议或有用的参考。
一个最小的例子:
import pandas as pd
from sklearn.linear_model import LogisticRegression
df1 = pd.DataFrame({'sexid': list('MMFFMFFMMF'), 'x1': [0, 12, 2, 3, 4, 2, 0, 12, 12, 12], 'x2': [0, 1, 1, 1, 0, 1, 1, 0, 0, 1]})
df2 = pd.DataFrame({'x1': [0, 12, 2, 3, 4, 2, 0, 12, 12, 12], 'x2': [0, 1, 1, 1, 0, 1, 1, 0, 0, 1]})
X = df1[['x1', 'x2']]
y = df1['sexid']
model = LogisticRegression()
model.fit(X, y)
model.predict(df2)
哪个returns:
array(['F', 'M', 'F', 'F', 'M', 'F', 'F', 'M', 'M', 'M'], dtype=object)
我强烈建议您阅读 this。
假设我有两个数据帧 df1 和 df2。在 df1 中,我有几个列,例如 userid、sexid、location 等。在 df2 中,我有与 df1 中所有相同的列,除了 sexid,我需要使用一些预测算法来填充它。 我只是一个初学者,我尝试了另一种问题。所以欢迎任何可以帮助我破解它的建议或有用的参考。
一个最小的例子:
import pandas as pd
from sklearn.linear_model import LogisticRegression
df1 = pd.DataFrame({'sexid': list('MMFFMFFMMF'), 'x1': [0, 12, 2, 3, 4, 2, 0, 12, 12, 12], 'x2': [0, 1, 1, 1, 0, 1, 1, 0, 0, 1]})
df2 = pd.DataFrame({'x1': [0, 12, 2, 3, 4, 2, 0, 12, 12, 12], 'x2': [0, 1, 1, 1, 0, 1, 1, 0, 0, 1]})
X = df1[['x1', 'x2']]
y = df1['sexid']
model = LogisticRegression()
model.fit(X, y)
model.predict(df2)
哪个returns:
array(['F', 'M', 'F', 'F', 'M', 'F', 'F', 'M', 'M', 'M'], dtype=object)
我强烈建议您阅读 this。