我有一个 table 't' 有两列 'col24' 和 'col23' 我想创建一个数据框 'r'
I have a table 't' with two columns 'col24' and 'col23' I want to create a data frame 'r'
假设一个 table t
有两列 -- col24
和 col18
我想制作一个数据框 'r'。这样得到的结果数据框将只有一列 col24
,名为 first_name
。
我试过下面的代码,但是不行work.but我理解错了帮我解决
import pyspark.sql.functions as f
r = t.select(f.explode("col24").alias("first_name")).toPandas()
import pyspark.sql.functions as f
如果我正确理解你的问题,这两个选项应该有效:
r = t.select('col24').f.withColumnRenamed('col24', 'first_name')
r = t.withColumnRenamed('col24', 'first_name').drop('col18')
例如,如果列表中有多个列 my_cols,则第二个选项变为:
r = t.withColumnRenamed('col24', 'first_name').drop(*my_cols)
然后你可以检查你的数据框:
r.show()
或者如果 t 很大,只需检查列名:
r.columns
请在下面找到您期望的答案:
select(f.col("col24").alias("first_name"))
假设一个 table t
有两列 -- col24
和 col18
我想制作一个数据框 'r'。这样得到的结果数据框将只有一列 col24
,名为 first_name
。
我试过下面的代码,但是不行work.but我理解错了帮我解决
import pyspark.sql.functions as f
r = t.select(f.explode("col24").alias("first_name")).toPandas()
import pyspark.sql.functions as f
如果我正确理解你的问题,这两个选项应该有效:
r = t.select('col24').f.withColumnRenamed('col24', 'first_name')
r = t.withColumnRenamed('col24', 'first_name').drop('col18')
例如,如果列表中有多个列 my_cols,则第二个选项变为:
r = t.withColumnRenamed('col24', 'first_name').drop(*my_cols)
然后你可以检查你的数据框:
r.show()
或者如果 t 很大,只需检查列名:
r.columns
请在下面找到您期望的答案:
select(f.col("col24").alias("first_name"))