I/Os 是如何在 dask 中执行的?
How I/Os are performed in dask?
我是使用#dask 进行数据分析的新手。我对#dask 的内部工作方式有一些疑问。
例如它如何执行 I/O?就像在 HDF5 中一样,它是在 worker 中还是在其他地方并行 HDF5 完成的?
一般来说,在 Dask 中计算任何东西都有两个阶段:
构建操作图,其中包括从客户端检查文件,以确定输入数量、分块、数据类型等,最少的 IO
独立并行地从 worker 访问数据块。
大部分 IO 发生在 worker 中。
您在计算中究竟发生了什么取决于您在做什么,以及您使用的数据。请注意,某些文件格式在并行或 cloud/distributed 系统上更容易访问。
我是使用#dask 进行数据分析的新手。我对#dask 的内部工作方式有一些疑问。 例如它如何执行 I/O?就像在 HDF5 中一样,它是在 worker 中还是在其他地方并行 HDF5 完成的?
一般来说,在 Dask 中计算任何东西都有两个阶段:
构建操作图,其中包括从客户端检查文件,以确定输入数量、分块、数据类型等,最少的 IO
独立并行地从 worker 访问数据块。
大部分 IO 发生在 worker 中。
您在计算中究竟发生了什么取决于您在做什么,以及您使用的数据。请注意,某些文件格式在并行或 cloud/distributed 系统上更容易访问。