如何使用 Dask 将一个 csv 拆分为多个 csv 文件
How to split a csv into multiple csv files using Dask
如何使用 Dask 将一个 csv 文件拆分成多个文件?
下面的代码似乎只写入一个文件,需要很长时间才能写入完整的文件。我相信写入多个文件会更快。
import dask.dataframe as ddf
import dask
file_path = "file_name.csv"
df = ddf.read_csv(file_path)
futs = df.to_csv(r"*.csv", compute=False)
_, l = dask.compute(futs, df.size)
我怀疑当您阅读 df
时,您的 df.npartitions
只是 1
。
import dask.dataframe as dd
file_path = "file_name.csv"
df = dd.read_csv(file_path)
# set how many file you would like to have
# in this case 10
df = df.repartition(npartitions=10)
df.to_csv("file_*.csv")
但据我所知,它并没有更快。
如何使用 Dask 将一个 csv 文件拆分成多个文件?
下面的代码似乎只写入一个文件,需要很长时间才能写入完整的文件。我相信写入多个文件会更快。
import dask.dataframe as ddf
import dask
file_path = "file_name.csv"
df = ddf.read_csv(file_path)
futs = df.to_csv(r"*.csv", compute=False)
_, l = dask.compute(futs, df.size)
我怀疑当您阅读 df
时,您的 df.npartitions
只是 1
。
import dask.dataframe as dd
file_path = "file_name.csv"
df = dd.read_csv(file_path)
# set how many file you would like to have
# in this case 10
df = df.repartition(npartitions=10)
df.to_csv("file_*.csv")
但据我所知,它并没有更快。