将 PySpark 数据框转换为 PySpark.pandas 数据框

Converting a PySpark data frame to a PySpark.pandas data frame

在 this link 中，用户可以在 Spark 3.2 的 PySpark 之上使用 pandas。将 PySpark 数据框转换为 PySpark pandas 数据框是否需要很长时间？

我知道将 PySpark 数据帧转换为 pandas 数据帧需要很长时间。

您可以浏览 link 和示例 here。

以上 link 描述了 Pandas 到 Spark 的转换，反之亦然。

Spark是用Scala语言开发的，底层启动JVM，PySpark是Scala中Pythonsub-processRDD对象启动的Pythonsub-process。 Py4J用于Python与JVM的通信，通过Py4JPython使用Linux管道可以动态访问JVM中的Java对象。 RDD需要在底层JVM中序列化，在Python.So处理大数据量时需要反序列化，效率会远远低于直接使用Scala

为了在 JVM 和 Python 进程之间高效传输数据我们可以使用 spark 配置 Apache arrow 这里有一些相同的链接

Official Apache arrow documentation

Apache arrow and spark configuration

将 PySpark 数据框转换为 PySpark.pandas 数据框

Converting a PySpark data frame to a PySpark.pandas data frame

python-3.x

apache-spark

pyspark