Hortonworks Nodemanager 启动但随后失败:连接被拒绝:8042
Hortonworks Nodemanager starts but then fails: Connection refused to :8042
我正在尝试解决 Hortonworks 集群上新添加的数据节点的问题。节点的 YARN namenode 管理器在启动后不久就会失败。返回以下错误消息日志:
Connection failed to http://(ipaddress):8042/ws/v1/node/info (Traceback (most recent call last):
File "/var/lib/ambari-agent/cache/common-services/YARN/2.1.0.2.0/package/alerts/alert_nodemanager_health.py", line 166, in execute
connection_timeout=curl_connection_timeout, kinit_timer_ms = kinit_timer_ms)
File "/usr/lib/python2.6/site-packages/resource_management/libraries/functions/curl_krb_request.py", line 198, in curl_krb_request
_, curl_stdout, curl_stderr = get_user_call_output(curl_command, user=user, env=kerberos_env)
File "/usr/lib/python2.6/site-packages/resource_management/libraries/functions/get_user_call_output.py", line 61, in get_user_call_output
raise ExecutionFailed(err_msg, code, files_output[0], files_output[1])
ExecutionFailed: Execution of 'curl --location-trusted -k --negotiate -u : -b /var/lib/ambari-agent/tmp/cookies/4268dd36-9f72-4be0-8d82-5f0a124a3a72 -c /var/lib/ambari-agent/tmp/cookies/4268dd36-9f72-4be0-8d82-5f0a124a3a72 http://gdcdrwhdb821.dir.ucb-group.com:8042/ws/v1/node/info --connect-timeout 5 --max-time 7 1>/tmp/tmp7pZrbM 2>/tmp/tmpgM4wdg' returned 7. % Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
0 0 0 0 0 0 0 0 --:--:-- --:--:-- --:--:-- 0curl: (7) Failed connect to (ipaddress):8042; Connection refused
)
这并没有真正告诉我为什么连接被拒绝,除了与端口 8042 对应的任何 Yarn 进程不是 运行:
netstat -tulpn | grep 8042
我一直在寻找另一个可能包含更多信息的 nodemanager 日志,但在 /var/log/hadoop-yarn 或 yarn.nodemanager.local-dirs / yarn.nodemanager.log-dirs[=13 下找不到任何有用的信息=]
还有其他地方可以查找 yarn nodemanager 错误日志吗?有谁知道这可能是什么原因造成的?
编辑:重新检查后,我在 /var/log/hadoop-yarn/yarn/yarn-yarn-nodemanager-(ipaddress).log
中发现了这个有用的位
2017-04-19 14:01:14,670 FATAL nodemanager.NodeManager (NodeManager.java:initAndStartNodeManager(549)) - Error starting NodeManager
org.apache.hadoop.service.ServiceStateException: java.lang.ClassNotFoundException: org.apache.spark.network.yarn.YarnShuffleService
你能解决这个问题吗?
我今天遇到了类似的问题。
我在我的 HDP 集群中停止了 YARN 并删除了 /var/log/hadoop-yarn/nodemanager/recovery-state 目录并再次启动了 YARN。
nodemanager 运行 现在没有失败。
我这边也很好用。请停止特定节点上的 yarn 服务而不是完整的 YARN 服务。
不确定现在是否有帮助。也许你已经解决了。
您正在使用外部随机播放服务。这作为节点管理器服务中的辅助服务运行。目前它无法在类路径中找到 shuffle 服务 jar。
请在 yarn-site.xml
中将 shuffle 服务 jar 的位置添加到 yarn.application.classpath
I stopped YARN in my HDP cluster and deleted /var/log/hadoop-yarn/nodemanager/recovery-state directory and started YARN again.
这对我也有用。我认为那是权限文件问题。
需要增加健康检查警报的超时时间。
我正在尝试解决 Hortonworks 集群上新添加的数据节点的问题。节点的 YARN namenode 管理器在启动后不久就会失败。返回以下错误消息日志:
Connection failed to http://(ipaddress):8042/ws/v1/node/info (Traceback (most recent call last):
File "/var/lib/ambari-agent/cache/common-services/YARN/2.1.0.2.0/package/alerts/alert_nodemanager_health.py", line 166, in execute
connection_timeout=curl_connection_timeout, kinit_timer_ms = kinit_timer_ms)
File "/usr/lib/python2.6/site-packages/resource_management/libraries/functions/curl_krb_request.py", line 198, in curl_krb_request
_, curl_stdout, curl_stderr = get_user_call_output(curl_command, user=user, env=kerberos_env)
File "/usr/lib/python2.6/site-packages/resource_management/libraries/functions/get_user_call_output.py", line 61, in get_user_call_output
raise ExecutionFailed(err_msg, code, files_output[0], files_output[1])
ExecutionFailed: Execution of 'curl --location-trusted -k --negotiate -u : -b /var/lib/ambari-agent/tmp/cookies/4268dd36-9f72-4be0-8d82-5f0a124a3a72 -c /var/lib/ambari-agent/tmp/cookies/4268dd36-9f72-4be0-8d82-5f0a124a3a72 http://gdcdrwhdb821.dir.ucb-group.com:8042/ws/v1/node/info --connect-timeout 5 --max-time 7 1>/tmp/tmp7pZrbM 2>/tmp/tmpgM4wdg' returned 7. % Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
0 0 0 0 0 0 0 0 --:--:-- --:--:-- --:--:-- 0curl: (7) Failed connect to (ipaddress):8042; Connection refused
)
这并没有真正告诉我为什么连接被拒绝,除了与端口 8042 对应的任何 Yarn 进程不是 运行:
netstat -tulpn | grep 8042
我一直在寻找另一个可能包含更多信息的 nodemanager 日志,但在 /var/log/hadoop-yarn 或 yarn.nodemanager.local-dirs / yarn.nodemanager.log-dirs[=13 下找不到任何有用的信息=]
还有其他地方可以查找 yarn nodemanager 错误日志吗?有谁知道这可能是什么原因造成的?
编辑:重新检查后,我在 /var/log/hadoop-yarn/yarn/yarn-yarn-nodemanager-(ipaddress).log
中发现了这个有用的位2017-04-19 14:01:14,670 FATAL nodemanager.NodeManager (NodeManager.java:initAndStartNodeManager(549)) - Error starting NodeManager
org.apache.hadoop.service.ServiceStateException: java.lang.ClassNotFoundException: org.apache.spark.network.yarn.YarnShuffleService
你能解决这个问题吗?
我今天遇到了类似的问题。
我在我的 HDP 集群中停止了 YARN 并删除了 /var/log/hadoop-yarn/nodemanager/recovery-state 目录并再次启动了 YARN。
nodemanager 运行 现在没有失败。
我这边也很好用。请停止特定节点上的 yarn 服务而不是完整的 YARN 服务。
不确定现在是否有帮助。也许你已经解决了。
您正在使用外部随机播放服务。这作为节点管理器服务中的辅助服务运行。目前它无法在类路径中找到 shuffle 服务 jar。
请在 yarn-site.xml
中将 shuffle 服务 jar 的位置添加到 yarn.application.classpathI stopped YARN in my HDP cluster and deleted /var/log/hadoop-yarn/nodemanager/recovery-state directory and started YARN again.
这对我也有用。我认为那是权限文件问题。
需要增加健康检查警报的超时时间。