pandas 的 Dask 就地替换?
Dask in-place replacement of pandas?
我想知道我是否可以使用 dask 而不是 pandas。我可能会遇到哪些问题?
1) 我想对于较小的数据集,dask 会比 pandas 慢。我对此没有意见,因为有时我不知道数据的大小,也不知道服务器配置。
2) 我将不得不学习稍微不同的语法(例如计算)
我会遇到 dask dataframe 不能做 pandas dataframe 可以做的事情的情况吗?
这是一个非常宽泛的问题。一般来说我推荐参考dask.dataframe documentation.
Dask.dataframe 没有实现所有 pandas。这包括以下几种操作:
- 变异操作
- 难以完全并行执行的操作,例如中位数(尽管通常存在近似解,例如近似分位数)
- 遍历数据帧的行
- API 的小角落,没有人费心复制过来。
但是,因为 dask 数据框只是许多小数据框的集合,所以在简单的情况下,您通常可以绕过其中的一些限制。
我想知道我是否可以使用 dask 而不是 pandas。我可能会遇到哪些问题?
1) 我想对于较小的数据集,dask 会比 pandas 慢。我对此没有意见,因为有时我不知道数据的大小,也不知道服务器配置。
2) 我将不得不学习稍微不同的语法(例如计算)
我会遇到 dask dataframe 不能做 pandas dataframe 可以做的事情的情况吗?
这是一个非常宽泛的问题。一般来说我推荐参考dask.dataframe documentation.
Dask.dataframe 没有实现所有 pandas。这包括以下几种操作:
- 变异操作
- 难以完全并行执行的操作,例如中位数(尽管通常存在近似解,例如近似分位数)
- 遍历数据帧的行
- API 的小角落,没有人费心复制过来。
但是,因为 dask 数据框只是许多小数据框的集合,所以在简单的情况下,您通常可以绕过其中的一些限制。