GCP 上的 PySpark ModuleNotFoundError

PySpark ModuleNotFoundError on GCP

我正在尝试 运行 GCP Dataproc 上的 Pyspark 流式处理程序。我已经在 ssh 中 pip install mmh3,运行ning pyspark 然后键入 import mmh3 没问题。但是当我开始 运行ning sc.start() 并从另一个 ssh 终端发送信息时,它开始说找不到模块。知道为什么会发生这种情况或如何解决它吗?谢谢

通过 SSH 安装包,您只需将它安装在“驱动程序”节点上。您还需要为 整个集群 (即所有工作节点)安装软件包。尝试关注 documentation