EMR Spark Streaming Job Stdout 日志记录消失

EMR Spark Streaming Job Stdout logging disappears

当我在 EMR(集群模式)上启动我的 Spark Streaming 作业时,我可以在最初的几分钟内从我的作业中看到 stdout,然后它就消失了...

我可以在 S3 的以下位置看到几行日志(我设置 EMR 将日志复制到我的 s3 存储桶): s3-us-west-1.amazonaws.com//spark/logs/j-IEMN2TMESREK/containers/application_1454718762107_0001/container_1454718762107_0001_01_000001/stdout.gz

流式处理作业约 10 秒后 运行,不再向日志传送标准输出。

EMR 是否将标准输出重定向到其他地方?

原来我的执行者没有得到 log4j 配置。

我使用 bootstrap 步骤将 log4j.properties 放入 /tmp/log4jproperties

然后使用 spark-submit 和以下参数

--conf spark.executor.extraJavaOptions=-Dlog4j.configuration=/tmp/log4j.properties --files file:///tmp/log4j.properties