如何在 Databricks 的 PySpark 中使用 Scala 创建的 DataFrame
How to Use DataFrame Created in Scala in Databricks' PySpark
我的 Databricks 笔记本在 Python 上。
笔记本中的一些代码是用 Scala 编写的(使用 %scala),其中之一用于创建数据框。
如果我再次使用 Python/PySpark(默认模式),我该如何使用/访问这个在 scala 模式下创建的数据框?
有可能吗?
谢谢
您可以在 SparkSQL 中通过 temp tables 访问以一种语言创建的 DataFrame 和另一种语言。
例如,假设您在 Scala 中有一个名为 scalaDF
的 DataFarame。您可以创建一个临时视图并使其可供 Python 单元格访问,例如:
scalaDF.createOrReplaceTempView("my_table")
然后在 Python 单元格中,您可以 运行
pythonDF = spark.sql("select * from my_table")
pythonDF.show()
同样适用于在这些语言和 R 之间传递数据帧。通用构造是 SparkSQL table。
我的 Databricks 笔记本在 Python 上。 笔记本中的一些代码是用 Scala 编写的(使用 %scala),其中之一用于创建数据框。
如果我再次使用 Python/PySpark(默认模式),我该如何使用/访问这个在 scala 模式下创建的数据框?
有可能吗?
谢谢
您可以在 SparkSQL 中通过 temp tables 访问以一种语言创建的 DataFrame 和另一种语言。
例如,假设您在 Scala 中有一个名为 scalaDF
的 DataFarame。您可以创建一个临时视图并使其可供 Python 单元格访问,例如:
scalaDF.createOrReplaceTempView("my_table")
然后在 Python 单元格中,您可以 运行
pythonDF = spark.sql("select * from my_table")
pythonDF.show()
同样适用于在这些语言和 R 之间传递数据帧。通用构造是 SparkSQL table。