新pyspark.pandas的正确使用方法?
The right way to use the new pyspark.pandas?
这篇来自 Databricks https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html 的最新博客 post 说,在 pyspark.pandas 下将 pandas 程序更改为 运行 所需的唯一更改是更改from pandas import read_csv
到 from pyspark.pandas import read_csv
.
但这似乎不对。那么所有其他(非 read_csv
)对 pandas 的引用呢?把import pandas as pd
改成import pyspark.pandas as pd
不是正确的做法吗?然后,现有程序中的所有其他 pandas 引用将指向 pandas.
的 pyspark 版本
你没看错。然而,他们建议的规范方式是 from pyspark import pandas as ps
这篇来自 Databricks https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html 的最新博客 post 说,在 pyspark.pandas 下将 pandas 程序更改为 运行 所需的唯一更改是更改from pandas import read_csv
到 from pyspark.pandas import read_csv
.
但这似乎不对。那么所有其他(非 read_csv
)对 pandas 的引用呢?把import pandas as pd
改成import pyspark.pandas as pd
不是正确的做法吗?然后,现有程序中的所有其他 pandas 引用将指向 pandas.
你没看错。然而,他们建议的规范方式是 from pyspark import pandas as ps