从 s3 读取文件时 Spark 应用程序停止

Spark application stops when reading file from s3

我有一个 运行 在 EMR 上运行并从 s3 读取 csv 文件的应用程序。 但是,当我尝试从 s3 读取该文件时,整个事情似乎停止了(我让它 运行 了大约一个小时)。除了应用程序仍在 运行ning 之外,什么也没有发生,也没有任何内容写入日志。此应用程序 运行ning 的步骤没有失败!

我尝试通过 spark-submit 的标志 --files 将文件复制到集群,并使用 sc.textFile(filename).

在应用程序中直接读取它

有什么我遗漏的吗?

一段时间后,我终于又回到了那个问题,并且可以 "solve" 自己解决(虽然我真的不知道问题出在哪里...) 似乎 spark 未能分配工作节点。将 spark.dynamicAllocation.enabled 设置为 true 后,现在一切正常。