添加 Kafka jar 后 Spark 无法连接到 YARN 资源管理器
Spark can't connect to YARN resource manager after adding Kafka jar
我正在尝试将 Spark 与 Kafka 连接起来。以前,Spark 可以正常工作但没有此功能。我将 spark-streaming-kafka-spark-streaming-kafka-0-8-assembly
jar 安装到 Spark 的 jars 文件夹中,现在当我尝试提交任务时,我得到
INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s);
retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
作业在不断尝试连接时挂起。我有 yarn-site.xml 指定资源管理器 IP 地址 - 它有
<property>
<name>yarn.resourcemanager.address.rm1</name>
<value>my.Server.Name:8032</value>
</property>
所以地址似乎被覆盖了 - 我不确定为什么或如何防止这种情况。
更新:如果我将 jar 移出 Jar 文件夹并改为使用 --jars 包含它,我就不会挂起。但是,当我尝试创建直接的 Kafka 流时,我得到 n error occurred while calling o28.createDirectStreamWithoutMessageHandler.
: java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce
。我不确定这是版本不匹配还是什么。
我通过将 jar 升级到正确的版本 - 2.11/2.1.0 来解决这个问题。您还需要将它放在 Spark jars 文件夹之外。
我正在尝试将 Spark 与 Kafka 连接起来。以前,Spark 可以正常工作但没有此功能。我将 spark-streaming-kafka-spark-streaming-kafka-0-8-assembly
jar 安装到 Spark 的 jars 文件夹中,现在当我尝试提交任务时,我得到
INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s);
retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
作业在不断尝试连接时挂起。我有 yarn-site.xml 指定资源管理器 IP 地址 - 它有
<property>
<name>yarn.resourcemanager.address.rm1</name>
<value>my.Server.Name:8032</value>
</property>
所以地址似乎被覆盖了 - 我不确定为什么或如何防止这种情况。
更新:如果我将 jar 移出 Jar 文件夹并改为使用 --jars 包含它,我就不会挂起。但是,当我尝试创建直接的 Kafka 流时,我得到 n error occurred while calling o28.createDirectStreamWithoutMessageHandler.
: java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce
。我不确定这是版本不匹配还是什么。
我通过将 jar 升级到正确的版本 - 2.11/2.1.0 来解决这个问题。您还需要将它放在 Spark jars 文件夹之外。