我是否必须在 Kubernetes 集群上使用 jupyter notebook/lab/hub for 运行 Dask?

Do I have to use jupyter notebook/lab/hub for running Dask on a Kubernetes cluster?

我正在测试 dask.distributed 大数据和机器学习相关的东西。我看过视频、阅读博客页面并尝试理解图书馆文档。但我很困惑。在我找到的每个来源中总是有 jupyter notebook/lab/hub。我是否必须使用 jupyter notebook/lab/hub 才能 运行 Kubernetes 集群上的 Dask?我不能用 2 台笔记本电脑和 运行 Dask 构建一个没有 jupyter 相关东西的 Kubernetes 集群吗?

为什么?因为我想用我自己的服务器(kubernetes集群)为用户提供我自己的网页(后台flask)。

我在这里看到 no jupyter notebooks。 Jupyter 笔记本对数据科学人员来说很方便,但这不是使用工具的要求,您仍然可以 import dask.distributed 像任何其他 python 包一样进入您的 Flask 应用程序,将其容器化并运送到您的 Kubernetes 中集群即服务。这完全取决于您作为开发者。

不,你不知道。 Jupyter 只是使用 Dask 的最常见设置,而 JupyterLab 有很好的扩展,因此您可以在任务图执行时将其可视化。但是如果只是在 kubernetes 上编排 dask worker,我会看一下 dask-kubernetes. That's the library we're using at Saturn Cloud 来为我们的企业客户部署 dask。

在文档中,这些行应该足以让您入门

from dask_kubernetes import KubeCluster

cluster = KubeCluster.from_yaml('worker-spec.yml')
cluster.adapt(minimum=1, maximum=100)  # or dynamically scale based on current 

了解 KubeCluster 通过将 PeriodicCallback 附加到 asyncio 事件循环来工作很重要。这意味着您肯定想确保它不会被垃圾收集。您可以将 cluster 实例直接传递给 distributed.client,或者获取调度程序地址并以这种方式进行通信。