我可以使用包含(时间序列+分类+数字)和分类器因变量(0,1)的自变量构建 ML 模型吗
Can I build a ML model with independent variables containing (time series+ categorical +numeric) and a classifier dependent variable (0,1)
假设我有数据包含
薪水,
工作简介,
工作经验,
家庭人数,
其他人口统计等..
访问过我的汽车经销店的多人的数据,我也有 he/she 是否从我这里买过车的数据。
我可以利用此数据集来预测新来的客户是否有可能购买汽车。假设目前我正在使用 xgboost 来做这件事。
现在,我得到了额外的数据,但它是一个人每月支出的时间序列数据。假设我也获得了训练数据的数据。现在我想建立一个模型,使用这个时间序列数据和旧的人口统计数据(+薪水、年龄等)来了解客户是否有可能购买。
注意:在第二部分我只有每月支出的时间序列数据。其他变量在某个时间点。例如,我没有工资或年龄的时间序列。
注意 2:我也有分类变量,例如我想在模型中使用的工作概况。但是为此我不知道这个人是否一直在同一个工作档案中,或者他已经从其他工作档案中转过来了。
因为大部分数据都是针对个人的;除了支出时间序列,所以最好带个人级别的时间序列数据。这可以通过特征工程来完成,例如:
- 正如@cmxu 建议的那样,采取各种统计措施。在不同的时间间隔采取这些统计措施会更加有益,比如最近 2 天、5 天、7 天、15 天、30 天、90 天、180 天等的平均值
创建混合特征,例如:
a) 在第 1 点中创建的工资与支出统计汇总的比率(选择适当的区间)
b) 每户人均工资或每户平均每月支出。等等
通过类似的想法,您可以轻松地使用数据创建数百或数千个特征,然后将所有这些数据提供给 XGBoost(易于训练和调试)或 NN(训练更复杂)。
假设我有数据包含 薪水, 工作简介, 工作经验, 家庭人数, 其他人口统计等.. 访问过我的汽车经销店的多人的数据,我也有 he/she 是否从我这里买过车的数据。
我可以利用此数据集来预测新来的客户是否有可能购买汽车。假设目前我正在使用 xgboost 来做这件事。
现在,我得到了额外的数据,但它是一个人每月支出的时间序列数据。假设我也获得了训练数据的数据。现在我想建立一个模型,使用这个时间序列数据和旧的人口统计数据(+薪水、年龄等)来了解客户是否有可能购买。
注意:在第二部分我只有每月支出的时间序列数据。其他变量在某个时间点。例如,我没有工资或年龄的时间序列。
注意 2:我也有分类变量,例如我想在模型中使用的工作概况。但是为此我不知道这个人是否一直在同一个工作档案中,或者他已经从其他工作档案中转过来了。
因为大部分数据都是针对个人的;除了支出时间序列,所以最好带个人级别的时间序列数据。这可以通过特征工程来完成,例如:
- 正如@cmxu 建议的那样,采取各种统计措施。在不同的时间间隔采取这些统计措施会更加有益,比如最近 2 天、5 天、7 天、15 天、30 天、90 天、180 天等的平均值
创建混合特征,例如: a) 在第 1 点中创建的工资与支出统计汇总的比率(选择适当的区间) b) 每户人均工资或每户平均每月支出。等等
通过类似的想法,您可以轻松地使用数据创建数百或数千个特征,然后将所有这些数据提供给 XGBoost(易于训练和调试)或 NN(训练更复杂)。