为什么 AWS Glue 不生成 spark 事件日志
Why doesn't AWS Glue generate spark event logs
我按照以下说明启用了 Spark UI 的 AWS 粘合作业:Enabling the Spark UI for Jobs
粘合作业可以 s3:* 访问 arn:aws:s3:::my-spark-event-bucket/ * 资源。但出于某种原因,当我 运行 胶水作业(它在 40-50 秒内成功完成并成功生成输出镶木地板文件)时,它不会生成任何 spark 事件日志到目标 s3 路径。我想知道可能出了什么问题,是否有任何系统的方法可以查明根本原因。
您的 Glue 工作 运行 需要多长时间?
我发现执行时间较短的作业(少于或大约 1 分钟)无法在 S3 中可靠地生成 Spark UI 日志。
AWS 文档指出“AWS Glue 每 30 秒将 Spark 事件日志刷新到您指定的 Amazon S3 路径。”短作业不产生 Spark 的原因UI 日志可能与此有关。
如果您有一个执行时间较短的作业,请尝试向该作业添加额外的步骤,甚至 pause/wait 以延长执行时间。这应该有助于确保将 Spark UI 日志发送到 S3。
我按照以下说明启用了 Spark UI 的 AWS 粘合作业:Enabling the Spark UI for Jobs
粘合作业可以 s3:* 访问 arn:aws:s3:::my-spark-event-bucket/ * 资源。但出于某种原因,当我 运行 胶水作业(它在 40-50 秒内成功完成并成功生成输出镶木地板文件)时,它不会生成任何 spark 事件日志到目标 s3 路径。我想知道可能出了什么问题,是否有任何系统的方法可以查明根本原因。
您的 Glue 工作 运行 需要多长时间?
我发现执行时间较短的作业(少于或大约 1 分钟)无法在 S3 中可靠地生成 Spark UI 日志。
AWS 文档指出“AWS Glue 每 30 秒将 Spark 事件日志刷新到您指定的 Amazon S3 路径。”短作业不产生 Spark 的原因UI 日志可能与此有关。
如果您有一个执行时间较短的作业,请尝试向该作业添加额外的步骤,甚至 pause/wait 以延长执行时间。这应该有助于确保将 Spark UI 日志发送到 S3。