Glue Job 无法写入文件
Glue Job fails to write file
我正在通过胶水作业填充一些数据。作业本身是从 s3 读取 TSV,稍微转换数据,然后将其写入 Parquet 到 S3。因为我已经有了数据,所以我尝试一次启动多个作业以减少处理所有数据所需的时间。当我同时启动多个作业时,我 运行 遇到一个问题,有时其中一个文件将无法在 S3 中输出生成的 Parquet 文件。作业本身成功完成而没有抛出错误当我将作业重新运行作为非并行任务时,它会正确输出文件。胶水(或底层火花)或 S3 是否有问题会导致我的问题?
并行执行相同的 Glue 作业 运行 可能会生成同名文件,因此其中一些文件可能会被覆盖。我没有记错, transformation-context 被用作名称的一部分。我假设您没有启用书签功能,因此您可以安全地动态生成 transformation-context 值以确保它对于每个作业都是唯一的。
我正在通过胶水作业填充一些数据。作业本身是从 s3 读取 TSV,稍微转换数据,然后将其写入 Parquet 到 S3。因为我已经有了数据,所以我尝试一次启动多个作业以减少处理所有数据所需的时间。当我同时启动多个作业时,我 运行 遇到一个问题,有时其中一个文件将无法在 S3 中输出生成的 Parquet 文件。作业本身成功完成而没有抛出错误当我将作业重新运行作为非并行任务时,它会正确输出文件。胶水(或底层火花)或 S3 是否有问题会导致我的问题?
并行执行相同的 Glue 作业 运行 可能会生成同名文件,因此其中一些文件可能会被覆盖。我没有记错, transformation-context 被用作名称的一部分。我假设您没有启用书签功能,因此您可以安全地动态生成 transformation-context 值以确保它对于每个作业都是唯一的。