如何运行在多台机器上运行?

How to run dask in multiple machines?

我最近找到了 Dask。我有一些关于 Dask Dataframe 和其他数据结构的非常基本的问题。

  1. Dask Dataframe 是不可变数据类型吗?
  2. Dask数组和Dataframe是惰性数据结构吗?

我不知道我的情况是使用 dask 还是 spark 还是 pandas。我有 200 GB 的数据要计算。使用普通 python 程序计算运算需要 9 个小时。但是利用16核处理器可以在更短的时间内并行处理。如果我在 pandas 中拆分数据框,我需要担心计算的交换和关联 属性。另一方面,我可以使用独立的 spark 集群来并行拆分数据和 运行。

我是否需要像 Spark 一样在 Dask 中设置任何集群?
如何 运行 我自己的计算节点中的 Dask 数据帧?
Dask 需要设置主从吗?

我是pandas的粉丝,所以我正在寻找类似于pandas的解决方案。

这里好像有几个问题

问:Dask.dataframes 是不可变的吗?

不严格。他们支持列分配。一般来说,尽管您是正确的,但 Pandas 的大多数变异操作不受支持

问:Dask.dataframe和Dask.array懒惰吗?

问:需要搭建集群吗?

不,您可以选择 运行 集群或单机上的 Dask。

问:如果我想使用集群,我该怎么做?

请特别参阅 Dask.distributed and the setup docs 的文档

问:我应该使用 Dask、Spark 还是 Pandas?

这个问题过于宽泛,要视情况而定