为 Spark 分析 Scala 代码

Profiling Scala code for Spark

我不熟悉 Scala 和大型数据集编程。我需要在本地环境中使用分析器,为了检查我的 Scala 代码中哪个 operation/function 太慢,我在本地节点和集群环境中都尝试了 Spark UI,但它是不够。问题是我的代码是 Scala "script",或者更好的是,它只是直接在 spark-shell.

中执行的一系列代码行

所有常见的分析器都需要结构良好的 Scala 代码才能生成 jar 文件,并且 运行 jar 文件用于附加分析器代理。 我不知道在哪里搜索。有任何想法吗?可不可以?

您可以将 Java 分析器(例如 JDK 附带的免费 jvisualvm)附加到任何 运行 JVM。我没有尝试过,但我相信您应该能够分析由 Spark 执行的代码。

当然,您必须连接到执行代码的正确 JVM。如果是远程执行,连接到本地 JVM 也无济于事 运行 your Spark shell.

您还必须确保在正确的时间进行剖析。