如何使用 Dask 将一个 csv 拆分为多个 csv 文件

How to split a csv into multiple csv files using Dask

如何使用 Dask 将一个 csv 文件拆分成多个文件?

下面的代码似乎只写入一个文件,需要很长时间才能写入完整的文件。我相信写入多个文件会更快。

import dask.dataframe as ddf
import dask
file_path = "file_name.csv"
df   = ddf.read_csv(file_path)
futs = df.to_csv(r"*.csv", compute=False)
_, l = dask.compute(futs, df.size)

我怀疑当您阅读 df 时,您的 df.npartitions 只是 1

import dask.dataframe as dd

file_path = "file_name.csv"
df = dd.read_csv(file_path)
# set how many file you would like to have
# in this case 10
df = df.repartition(npartitions=10)
df.to_csv("file_*.csv")

但据我所知,它并没有更快。