新pyspark.pandas的正确使用方法?

The right way to use the new pyspark.pandas?

这篇来自 Databricks https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html 的最新博客 post 说,在 pyspark.pandas 下将 pandas 程序更改为 运行 所需的唯一更改是更改from pandas import read_csvfrom pyspark.pandas import read_csv.

但这似乎不对。那么所有其他(非 read_csv)对 pandas 的引用呢?把import pandas as pd改成import pyspark.pandas as pd不是正确的做法吗?然后,现有程序中的所有其他 pandas 引用将指向 pandas.

的 pyspark 版本

你没看错。然而,他们建议的规范方式是 from pyspark import pandas as ps