如何从数据框过滤器的输出创建 PySpark 数据框?
How to create a PySpark dataframe from the output of a dataframe filter?
我必须根据过滤函数从单个数据帧创建 2 个数据帧。
#df is an existing dataframe
第一个数据帧的条件
df.filter(df['Date'] == max_date ).display()
第二个数据帧的条件
df.filter(df['Date'] != max_date ).display()
仅供参考,数据帧类型 'df' 是:
# <class 'pyspark.sql.dataframe.DataFrame'>
您可以将输出分配给一个新的 df。
new_df = df.filter(df['Date'] != max_date )
new_df2 = df.filter(df['Date'] == max_date )
我必须根据过滤函数从单个数据帧创建 2 个数据帧。
#df is an existing dataframe
第一个数据帧的条件
df.filter(df['Date'] == max_date ).display()
第二个数据帧的条件
df.filter(df['Date'] != max_date ).display()
仅供参考,数据帧类型 'df' 是:
# <class 'pyspark.sql.dataframe.DataFrame'>
您可以将输出分配给一个新的 df。
new_df = df.filter(df['Date'] != max_date )
new_df2 = df.filter(df['Date'] == max_date )