使用 SageMaker 高效管理大量数据以训练 keras 模型

Efficient management of large amounts of data with SageMaker for training a keras model

我正在开展一个深度学习项目，该项目在数千个 .csv 文件（每个文件约 15MB）中包含大约 700GB 的 table 类时间序列数据。
所有数据都在 S3 上，在输入模型之前需要进行一些预处理。问题是如何最好地实现加载、预处理和训练过程的自动化。

带有一些内置预处理功能的自定义 keras 生成器是最佳解决方案吗？

预处理意味着您可能希望将其与模型执行和运行分开，可能是按计划或响应新数据流入。

如果是这样，您可能希望在 SageMaker 之外进行预处理。您可以使用 Glue, or you could write a custom job and run it through AWS Batch 或在 EMR 集群上进行编排。

这样，您的 Keras notebook 就可以加载已经预处理过的数据，通过 SageMaker 进行训练和测试。

稍加小心，您应该至少能够在预处理步骤中逐步执行一些繁重的工作，从而节省深度学习管道下游的时间和成本。

使用 SageMaker 高效管理大量数据以训练 keras 模型

Efficient management of large amounts of data with SageMaker for training a keras model

amazon-s3

bigdata

keras

amazon-sagemaker