新pyspark.pandas的正确使用方法？

The right way to use the new pyspark.pandas?

这篇来自 Databricks https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html 的最新博客 post 说，在 pyspark.pandas 下将 pandas 程序更改为运行所需的唯一更改是更改from pandas import read_csv 到 from pyspark.pandas import read_csv.

但这似乎不对。那么所有其他（非 read_csv）对 pandas 的引用呢？把import pandas as pd改成import pyspark.pandas as pd不是正确的做法吗？然后，现有程序中的所有其他 pandas 引用将指向 pandas.

的 pyspark 版本

你没看错。然而，他们建议的规范方式是 from pyspark import pandas as ps