Spark RDD 谱系图表示

Spark RDD lineage graph representation

我想知道是否有办法使用 将 spark api RDD.toDebugString() 的功能转换为更结构化的格式,因此它可用于自动获取图形表示,例如使用 graphviz。

似乎有一些 activity 与此有关: https://issues.apache.org/jira/browse/SPARK-1015

但我想将 toDebugString() 中的信息转换为结构化格式, 然后决定使用哪种图形格式进行表示。

toDebugString() 在内部迭代 RDD 的递归结构,构建可显示的字符串。

与其让 toDebugString() return 成为更结构化的输出,不如阅读其内部实现(确实依赖于结构化数据),并修改它以按照适合您的方式保存数据。

您无需等待 JIRA 上的任何问题,只需 DIY :)

使用 spark UI 可以看到更详细和格式化的可视化表示,默认情况下 运行 在 4040 端口上。 这是显示所有详细信息的屏幕截图: