如何使用作业名称从 YARN 日志中获取用于 FINISHED hadoop 作业的资源?

How to get resources used for FINISHED hadoop jobs from YARN logs using job names?

我有一个运行多个配置单元脚本的 unix shell 脚本。我已经为配置单元脚本中的每个配置单元查询提供了作业名称。

我需要的是,在 shell 脚本的末尾,我想根据 YARN 中的作业名称检索用于配置单元查询的资源(根据使用的内存、容器) logs/application 应用状态为 'FINISHED'

我该怎么做? 任何帮助将不胜感激。

您可以通过 rest api 从 Yarn History 服务器中提取此信息。

https://hadoop.apache.org/docs/r2.4.1/hadoop-yarn/hadoop-yarn-site/HistoryServerRest.html

滚动浏览此文档,您将看到有关如何获取有关已执行作业的集群级别信息以及如何获取有关各个作业的信息的示例。