数据提取是否需要时间戳?

Do data extracts need to be timestamped?

我应该为我的数据提取添加时间戳吗?

我和几个同事在 python 服务器上一起工作,以解决与数据科学相关的问题。我编写了一些函数来从源数据库中提取数据并将其保存到 python 服务器以供进一步处理。现在我正在纠结是否应该使用时间戳保存提取,结果是每次我启动管道时都会保存另一个提取,或者省略时间戳并覆盖旧提取。我读了很多关于数据不需要与代码相同类型的版本控制的信息,我真的不想用多个大量冗余的数据提取使服务器混乱。

save the extract with a timestamp, the result being that every time I start my pipeline another extract is saved or omit the timestamp and overwrite the old extract.

特征随时间的变化对您的数据科学相关问题重要吗?

  • 如果随着时间的推移进行衡量,您是否有任何可以讲述故事的指标?
  • 也许您可以存储自上次数据提取以来的增量,而不是冗余特征(不同 table 上的特征工程师)。

只是一些想法。祝你好运:)