使用时间戳训练分类模型
Training the classfication model with the timestamp
我有一个理论问题。我有一个时间序列数据集(包含两个特征列:时间戳和温度),我想通过使用 Python 应用一些机器学习对数(KNN、随机森林、SVM 和朴素贝叶斯)将其用于二元分类问题.我的问题是:
是否可以使用时间戳特征训练模型,或者它会导致一些学习问题,例如过拟合吗?
我想知道你们是否有任何理论上的建议,无论有无时间戳训练模型是否有效,或者在这种情况下最佳实践是什么。
时间戳 是一个编码值,因此对于您拥有的大多数示例,该列通常有太多变化,因为它通常收集 per second 完全改变了编码值。
推荐
将 timestamp 转换为 UTC-time 并通过某个阈值(seconds 离散化其值, minutes, ..等), 可以试试k-means discretization, 另一个差方法,是检查此列(时间戳特征)中唯一值的数量,如果它太小或太大,那么它对于大多数算法来说将毫无用处,并且可能对某些算法集合造成太大伤害。
在预测任务中没有贡献的值,可能会伤害树算法,并且案例过度拟合 即使使用 随机森林 也不会有太大帮助,而且它也会 伤害算法 , 制定 通过 无约束 问题,例如 逻辑回归 (没有正则化 约束 )。对于 SVM 这样的算法,尽管如此,它是一个 constrained 问题,它的 performance 可能不会被改变使用无用特征,但问题是,数据可能不够可分离,这可能导致模型极差(欠拟合).
我有一个理论问题。我有一个时间序列数据集(包含两个特征列:时间戳和温度),我想通过使用 Python 应用一些机器学习对数(KNN、随机森林、SVM 和朴素贝叶斯)将其用于二元分类问题.我的问题是:
是否可以使用时间戳特征训练模型,或者它会导致一些学习问题,例如过拟合吗?
我想知道你们是否有任何理论上的建议,无论有无时间戳训练模型是否有效,或者在这种情况下最佳实践是什么。
时间戳 是一个编码值,因此对于您拥有的大多数示例,该列通常有太多变化,因为它通常收集 per second 完全改变了编码值。
推荐
将 timestamp 转换为 UTC-time 并通过某个阈值(seconds 离散化其值, minutes, ..等), 可以试试k-means discretization, 另一个差方法,是检查此列(时间戳特征)中唯一值的数量,如果它太小或太大,那么它对于大多数算法来说将毫无用处,并且可能对某些算法集合造成太大伤害。
在预测任务中没有贡献的值,可能会伤害树算法,并且案例过度拟合 即使使用 随机森林 也不会有太大帮助,而且它也会 伤害算法 , 制定 通过 无约束 问题,例如 逻辑回归 (没有正则化 约束 )。对于 SVM 这样的算法,尽管如此,它是一个 constrained 问题,它的 performance 可能不会被改变使用无用特征,但问题是,数据可能不够可分离,这可能导致模型极差(欠拟合).