AWS Glue Spark 作业书签是否会重新处理失败的作业?

Will AWS Glue Spark Job Bookmark reprocess failed jobs?

我是 AWS Glue 的新手,我想了解 Spark Job 的行为方式。我有一个 Spark 作业由于高 S3 PUTS 而失败。一些文件已被处理(清楚的是,成功处理的文件已写入接收器桶),而其他文件则没有,请注意尚未达到 'job commit'。如果启用作业书签,它是否仍会重新处理那些已写入接收器的文件,还是会从失败的时间开始执行增量更新?

documentation on job bookmarks 在我看来真的很有帮助。他们甚至包括您的用例示例。

长话短说:

If a job run fails before the job.commit(), the files are processed in a subsequent run.