数据提取是否需要时间戳?
Do data extracts need to be timestamped?
我应该为我的数据提取添加时间戳吗?
我和几个同事在 python 服务器上一起工作,以解决与数据科学相关的问题。我编写了一些函数来从源数据库中提取数据并将其保存到 python 服务器以供进一步处理。现在我正在纠结是否应该使用时间戳保存提取,结果是每次我启动管道时都会保存另一个提取,或者省略时间戳并覆盖旧提取。我读了很多关于数据不需要与代码相同类型的版本控制的信息,我真的不想用多个大量冗余的数据提取使服务器混乱。
save the extract with a timestamp, the result being that every time I start my pipeline another extract is saved or omit the timestamp and overwrite the old extract.
特征随时间的变化对您的数据科学相关问题重要吗?
- 如果随着时间的推移进行衡量,您是否有任何可以讲述故事的指标?
- 也许您可以存储自上次数据提取以来的增量,而不是冗余特征(不同 table 上的特征工程师)。
只是一些想法。祝你好运:)
我应该为我的数据提取添加时间戳吗?
我和几个同事在 python 服务器上一起工作,以解决与数据科学相关的问题。我编写了一些函数来从源数据库中提取数据并将其保存到 python 服务器以供进一步处理。现在我正在纠结是否应该使用时间戳保存提取,结果是每次我启动管道时都会保存另一个提取,或者省略时间戳并覆盖旧提取。我读了很多关于数据不需要与代码相同类型的版本控制的信息,我真的不想用多个大量冗余的数据提取使服务器混乱。
save the extract with a timestamp, the result being that every time I start my pipeline another extract is saved or omit the timestamp and overwrite the old extract.
特征随时间的变化对您的数据科学相关问题重要吗?
- 如果随着时间的推移进行衡量,您是否有任何可以讲述故事的指标?
- 也许您可以存储自上次数据提取以来的增量,而不是冗余特征(不同 table 上的特征工程师)。
只是一些想法。祝你好运:)