使用 Spark Structured Streaming 检索图形信息
Retrieve graphical information using Spark Structured Streaming
Spark Streaming 在已部署的 Web UI(http://localhost:4040
用于 运行 应用程序或 http://localhost:18080
用于已完成的应用程序,默认情况下均为)提供了一个“Streaming”选项卡每个执行的应用程序,其中可以获得代表应用程序性能的图表,而使用 Spark Structured Streaming 则不再可用。就我而言,我正在开发一个使用 Spark Structured Streaming 的流应用程序,它从 Kafka 代理读取数据,我想获得每秒处理的记录图,例如我在使用 Spark Streaming 而不是 Spark Structured Streaming 时可以获得的图表,以及其他图形信息。
实现此目标的最佳替代方法是什么?我正在使用 Spark 3.0.1(通过 pyspark 库),并将我的应用程序部署在 YARN 集群上。
我查了Monitoring Structured Streaming Applications Using Web UI by Jacek Laskowski,但还是不太清楚如何以图形方式获取这类信息
提前致谢!
您在 spark UI 中看到的大多数指标信息都是由 spark 导出的。
如果 spark UI 不符合您的要求,您可以检索这些指标并进行处理。
您可以使用接收器导出数据,例如 csv、prometheus 等,或者通过 rest API。
你应该看看 spark 监控:https://spark.apache.org/docs/latest/monitoring.html
我得到了我想要的。出于某种原因,我仍然不知道,已完成应用程序的 Spark History Server UI(默认情况下在 http://localhost:18080
上)没有显示可用于 Spark 的新选项卡(“Structured Streaming”选项卡)在 Spark 3.0.1 上执行的结构化流应用程序。但是,我通过 URL http://localhost:4040
设法访问的网络 UI 确实向我显示了我想要检索的信息。您只需单击要从中获取统计信息的流式查询的 'runId' link。
如果你看不到这个标签,根据我个人的经验,我推荐如下:
- 升级到 Spark 最新版本(当前为 3.0.1)
- 当应用程序 运行 部署在端口 4040 时,请参考此信息 UI,而不是应用程序完成后的端口 18080。
我发现来自最新的 Apache Spark 的 Web UI official documentation 对实现这个非常有用。
Spark Streaming 在已部署的 Web UI(http://localhost:4040
用于 运行 应用程序或 http://localhost:18080
用于已完成的应用程序,默认情况下均为)提供了一个“Streaming”选项卡每个执行的应用程序,其中可以获得代表应用程序性能的图表,而使用 Spark Structured Streaming 则不再可用。就我而言,我正在开发一个使用 Spark Structured Streaming 的流应用程序,它从 Kafka 代理读取数据,我想获得每秒处理的记录图,例如我在使用 Spark Streaming 而不是 Spark Structured Streaming 时可以获得的图表,以及其他图形信息。
实现此目标的最佳替代方法是什么?我正在使用 Spark 3.0.1(通过 pyspark 库),并将我的应用程序部署在 YARN 集群上。
我查了Monitoring Structured Streaming Applications Using Web UI by Jacek Laskowski,但还是不太清楚如何以图形方式获取这类信息
提前致谢!
您在 spark UI 中看到的大多数指标信息都是由 spark 导出的。
如果 spark UI 不符合您的要求,您可以检索这些指标并进行处理。
您可以使用接收器导出数据,例如 csv、prometheus 等,或者通过 rest API。
你应该看看 spark 监控:https://spark.apache.org/docs/latest/monitoring.html
我得到了我想要的。出于某种原因,我仍然不知道,已完成应用程序的 Spark History Server UI(默认情况下在 http://localhost:18080
上)没有显示可用于 Spark 的新选项卡(“Structured Streaming”选项卡)在 Spark 3.0.1 上执行的结构化流应用程序。但是,我通过 URL http://localhost:4040
设法访问的网络 UI 确实向我显示了我想要检索的信息。您只需单击要从中获取统计信息的流式查询的 'runId' link。
如果你看不到这个标签,根据我个人的经验,我推荐如下:
- 升级到 Spark 最新版本(当前为 3.0.1)
- 当应用程序 运行 部署在端口 4040 时,请参考此信息 UI,而不是应用程序完成后的端口 18080。
我发现来自最新的 Apache Spark 的 Web UI official documentation 对实现这个非常有用。