I/Os 是如何在 dask 中执行的？

How I/Os are performed in dask?

我是使用#dask 进行数据分析的新手。我对#dask 的内部工作方式有一些疑问。例如它如何执行 I/O？就像在 HDF5 中一样，它是在 worker 中还是在其他地方并行 HDF5 完成的？

一般来说，在 Dask 中计算任何东西都有两个阶段：

构建操作图，其中包括从客户端检查文件，以确定输入数量、分块、数据类型等，最少的 IO
独立并行地从 worker 访问数据块。

大部分 IO 发生在 worker 中。

您在计算中究竟发生了什么取决于您在做什么，以及您使用的数据。请注意，某些文件格式在并行或 cloud/distributed 系统上更容易访问。