dask - 如何将本地分布式调度程序设置为 dask.dataframe 的默认调度程序?
dask - how to set a local distributed scheduler as the default scheduler for dask.dataframe?
我试图让 dask.dataframe 默认使用本地分布式调度程序,但阅读 Dask 文档时我不清楚如何做到这一点。下面的内容是否足够?
from dask import distributed
from dask import dataframe as dd
client = distributed.Client(processes=True) # use multi processing
dask.config.set(scheduler=client)
dd.merge(df1, df2, on='some_col')
是的:如果您创建任何类型的分布式 Client
,它将成为进一步 Dask 计算的默认调度程序。
我试图让 dask.dataframe 默认使用本地分布式调度程序,但阅读 Dask 文档时我不清楚如何做到这一点。下面的内容是否足够?
from dask import distributed
from dask import dataframe as dd
client = distributed.Client(processes=True) # use multi processing
dask.config.set(scheduler=client)
dd.merge(df1, df2, on='some_col')
是的:如果您创建任何类型的分布式 Client
,它将成为进一步 Dask 计算的默认调度程序。