dask 从 spark 读取镶木地板文件
dask read parquet file from spark
对于从 spark 写入的镶木地板文件(没有任何分区),其目录如下所示:
%ls foo.parquet
part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
_SUCCESS
尝试通过 pandas 读取时:
pd.read_parquet('foo.parquet')
一切正常,如预期。
但是,当使用 dask 时它失败了:
dd.read_parquet('foo.parquet')
[Errno 17] File exists: 'foo.parquet/_SUCCESS'
我需要更改什么才能使 dask 能够成功读取数据?
原来pandas用的是pyarrow
。切换到此后端进行 dask 时:
dd.read_parquet('foo.parquet', engine='pyarrow')
它像预期的那样工作
对于从 spark 写入的镶木地板文件(没有任何分区),其目录如下所示:
%ls foo.parquet
part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
_SUCCESS
尝试通过 pandas 读取时:
pd.read_parquet('foo.parquet')
一切正常,如预期。
但是,当使用 dask 时它失败了:
dd.read_parquet('foo.parquet')
[Errno 17] File exists: 'foo.parquet/_SUCCESS'
我需要更改什么才能使 dask 能够成功读取数据?
原来pandas用的是pyarrow
。切换到此后端进行 dask 时:
dd.read_parquet('foo.parquet', engine='pyarrow')
它像预期的那样工作