使用 SageMaker 高效管理大量数据以训练 keras 模型
Efficient management of large amounts of data with SageMaker for training a keras model
我正在开展一个深度学习项目,该项目在数千个 .csv 文件(每个文件约 15MB)中包含大约 700GB 的 table 类时间序列数据。
所有数据都在 S3 上,在输入模型之前需要进行一些预处理。问题是如何最好地实现加载、预处理和训练过程的自动化。
带有一些内置预处理功能的自定义 keras 生成器是最佳解决方案吗?
我正在开展一个深度学习项目,该项目在数千个 .csv 文件(每个文件约 15MB)中包含大约 700GB 的 table 类时间序列数据。
所有数据都在 S3 上,在输入模型之前需要进行一些预处理。问题是如何最好地实现加载、预处理和训练过程的自动化。
带有一些内置预处理功能的自定义 keras 生成器是最佳解决方案吗?