我有一个 table 't' 有两列 'col24' 和 'col23' 我想创建一个数据框 'r'

Question

假设一个 table t 有两列 -- col24 和 col18 我想制作一个数据框 'r'。这样得到的结果数据框将只有一列 col24，名为 first_name。

我试过下面的代码，但是不行work.but我理解错了帮我解决


import pyspark.sql.functions as f

r = t.select(f.explode("col24").alias("first_name")).toPandas()

Answer 1

import pyspark.sql.functions as f

如果我正确理解你的问题，这两个选项应该有效：

r = t.select('col24').f.withColumnRenamed('col24', 'first_name')

r = t.withColumnRenamed('col24', 'first_name').drop('col18')

例如，如果列表中有多个列 my_cols，则第二个选项变为：

r = t.withColumnRenamed('col24', 'first_name').drop(*my_cols)

然后你可以检查你的数据框：

r.show()

或者如果 t 很大，只需检查列名：

r.columns

Answer 2

请在下面找到您期望的答案：

select(f.col("col24").alias("first_name"))

I have a table 't' with two columns 'col24' and 'col23' I want to create a data frame 'r'