将 PySpark 数据框转换为 PySpark.pandas 数据框

Converting a PySpark data frame to a PySpark.pandas data frame

this link 中,用户可以在 Spark 3.2 的 PySpark 之上使用 pandas。将 PySpark 数据框转换为 PySpark pandas 数据框是否需要很长时间?

我知道将 PySpark 数据帧转换为 pandas 数据帧需要很长时间。

您可以浏览 link 和示例 here

以上 link 描述了 Pandas 到 Spark 的转换,反之亦然。

Spark是用Scala语言开发的,底层启动JVM,PySpark是Scala中Pythonsub-processRDD对象启动的Pythonsub-process。 Py4J用于Python与JVM的通信,通过Py4JPython使用Linux管道可以动态访问JVM中的Java对象。 RDD需要在底层JVM中序列化,在Python.So处理大数据量时需要反序列化,效率会远远低于直接使用Scala

为了在 JVM 和 Python 进程之间高效传输数据我们可以使用 spark 配置 Apache arrow 这里有一些相同的链接

Official Apache arrow documentation

Apache arrow and spark configuration