将 Pandas 数据帧转换为 Dask 数据帧
Convert Pandas dataframe to Dask dataframe
假设我有 pandas 数据帧:
df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
当我将它转换成 dask 数据帧时,name
和 divisions
参数应该包括什么:
from dask import dataframe as dd
sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index))
TypeError: init() missing 1 required positional argument: 'name'
编辑:
假设我创建了一个 pandas 数据框,例如:
pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
同样,如何创建 dask 数据框,因为它需要三个额外的参数,如 name,divisions
和 meta
。
sd=dd.Dataframe({'a':[1,2,3],'b':[4,5,6]},name=,meta=,divisions=)
感谢您的回复。
我想你可以使用 dask.dataframe.from_pandas
:
from dask import dataframe as dd
sd = dd.from_pandas(df, npartitions=3)
print (sd)
dd.DataFrame<from_pa..., npartitions=2, divisions=(0, 1, 2)>
编辑:
我发现 solution:
import pandas as pd
import dask.dataframe as dd
from dask.dataframe.utils import make_meta
df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
dsk = {('x', 0): df}
meta = make_meta({'a': 'i8', 'b': 'i8'}, index=pd.Index([], 'i8'))
d = dd.DataFrame(dsk, name='x', meta=meta, divisions=[0, 1, 2])
print (d)
dd.DataFrame<x, npartitions=2, divisions=(0, 1, 2)>
假设我有 pandas 数据帧:
df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
当我将它转换成 dask 数据帧时,name
和 divisions
参数应该包括什么:
from dask import dataframe as dd
sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index))
TypeError: init() missing 1 required positional argument: 'name'
编辑: 假设我创建了一个 pandas 数据框,例如:
pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
同样,如何创建 dask 数据框,因为它需要三个额外的参数,如 name,divisions
和 meta
。
sd=dd.Dataframe({'a':[1,2,3],'b':[4,5,6]},name=,meta=,divisions=)
感谢您的回复。
我想你可以使用 dask.dataframe.from_pandas
:
from dask import dataframe as dd
sd = dd.from_pandas(df, npartitions=3)
print (sd)
dd.DataFrame<from_pa..., npartitions=2, divisions=(0, 1, 2)>
编辑:
我发现 solution:
import pandas as pd
import dask.dataframe as dd
from dask.dataframe.utils import make_meta
df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
dsk = {('x', 0): df}
meta = make_meta({'a': 'i8', 'b': 'i8'}, index=pd.Index([], 'i8'))
d = dd.DataFrame(dsk, name='x', meta=meta, divisions=[0, 1, 2])
print (d)
dd.DataFrame<x, npartitions=2, divisions=(0, 1, 2)>