在 Spark 集群上使用常规 python 代码

Using regular python code on a Spark cluster

我可以在 Spark 集群中使用常规 ML 库(例如 Tensorflow 或 sci-kit learn)运行 普通 python 代码吗?如果是,spark 可以跨集群分布我的数据和计算吗?如果不是,为什么?

Spark 使用 RDD(弹性分布式数据集)在 worker 或 slaves 之间分配工作,我不认为你可以在 python 中使用现有代码而不显着调整代码以适应 spark 规范,对于 tensorflow 有很多在多个 GPU 上分配计算的选项。