如何更改 aws EMR 上的纱线调度程序配置?

How to change yarn scheduler configuration on aws EMR?

与 HortonWorks 或 Cloudera 不同,AWS EMR 似乎没有提供任何 GUI 来更改 xml 各种 hadoop 生态系统框架的配置。

登录我的 EMR 名称节点并快速

find \ -iname yarn-site.xml

我发现它位于 /etc/hadoop/conf.empty/yarn-site.xml,而 capacity-scheduler 位于 /etc/hadoop/conf.empty/capacity-scheduler.xml

但请注意这些是如何在 conf.empty 下的,我怀疑这些可能不是 yarn-site 和 capacity-scheduler xmls 的实际位置。

我知道我可以在创建集群时更改这些配置,但我需要知道的是如何在不拆散集群的情况下更改它们。

我只是想尝试调度属性等,并尝试不同的调度程序以确定哪些可能适用于我的 spark 应用程序。

提前致谢!

好吧,yarn-site.xmlcapacity-scheduler.xml 确实在正确的位置 (/etc/hadoop/conf.empty/) 和 运行 集群上,在主节点上编辑它们并重新启动 YARN RM 守护进程将更改调度程序。

启动新集群时,您可以使用EMR Configurations API更改适当的值。 http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps.html

例如:在 EMR 配置的 capacity-scheduler and yarn-site classifications 中指定适当的值,以更改相应 XML 文件中的这些值。

编辑:2019 年 9 月 4 日: 使用 Amazon EMR 版本 5.21.0 及更高版本,您可以覆盖集群配置并为 运行 集群中的每个实例组指定额外的配置分类。您可以使用 Amazon EMR 控制台、AWS 命令​​行界面 (AWS CLI) 或 AWS 开发工具包执行此操作。

请看 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps-running-cluster.html