使用 SageMaker 高效管理大量数据以训练 keras 模型

Efficient management of large amounts of data with SageMaker for training a keras model

我正在开展一个深度学习项目,该项目在数千个 .csv 文件(每个文件约 15MB)中包含大约 700GB 的 table 类时间序列数据。
所有数据都在 S3 上,在输入模型之前需要进行一些预处理。问题是如何最好地实现加载、预处理和训练过程的自动化。

带有一些内置预处理功能的自定义 keras 生成器是最佳解决方案吗?

预处理意味着您可能希望将其与模型执行和 运行 分开,可能是按计划或响应新数据流入。

如果是这样,您可能希望在 SageMaker 之外进行预处理。您可以使用 Glue, or you could write a custom job and run it through AWS Batch 或在 EMR 集群上进行编排。

这样,您的 Keras notebook 就可以加载已经预处理过的数据,通过 SageMaker 进行训练和测试。

稍加小心,您应该至少能够在预处理步骤中逐步执行一些繁重的工作,从而节省深度学习管道下游的时间和成本。