使用时间戳训练分类模型

Training the classfication model with the timestamp

我有一个理论问题。我有一个时间序列数据集（包含两个特征列：时间戳和温度），我想通过使用 Python 应用一些机器学习对数（KNN、随机森林、SVM 和朴素贝叶斯）将其用于二元分类问题.我的问题是：

是否可以使用时间戳特征训练模型，或者它会导致一些学习问题，例如过拟合吗？

我想知道你们是否有任何理论上的建议，无论有无时间戳训练模型是否有效，或者在这种情况下最佳实践是什么。

时间戳 是一个编码值，因此对于您拥有的大多数示例，该列通常有太多变化，因为它通常收集 per second 完全改变了编码值。

推荐

将 timestamp 转换为 UTC-time 并通过某个阈值（seconds 离散化其值, minutes, ..等), 可以试试k-means discretization, 另一个差方法，是检查此列（时间戳特征）中唯一值的数量，如果它太小或太大，那么它对于大多数算法来说将毫无用处，并且可能对某些算法集合造成太大伤害。

在预测任务中没有贡献的值，可能会伤害树算法，并且案例过度拟合 即使使用 随机森林 也不会有太大帮助，而且它也会 伤害算法 ，制定通过 无约束 问题，例如 逻辑回归 （没有正则化约束）。对于 SVM 这样的算法，尽管如此，它是一个 constrained 问题，它的 performance 可能不会被改变使用无用特征，但问题是，数据可能不够可分离，这可能导致模型极差（欠拟合).

使用时间戳训练分类模型

Training the classfication model with the timestamp

timestamp

classification

machine-learning

time-series

推荐