如何将打印输出转换为 pyspark 数据帧(不允许 pandas)
How to convert print output to pyspark dataframe (no pandas allowed)
常用代码
print((sparkdf.count(), len(sparkdf.columns)))
由于我使用的是完全基于 HDFS 的 HDFS 系统,所以不允许pandas,我需要的输出
|-------|-------|
|row |columns|
|-------|-------|
|1500 | 22 |
|-------|-------|
只需使用 spark.createDataFrame
并将值作为元组列表传递:
spark.createDataFrame([(sparkdf.count(), len(sparkdf.columns))], schema=['rows', 'columns'])
常用代码
print((sparkdf.count(), len(sparkdf.columns)))
由于我使用的是完全基于 HDFS 的 HDFS 系统,所以不允许pandas,我需要的输出
|-------|-------|
|row |columns|
|-------|-------|
|1500 | 22 |
|-------|-------|
只需使用 spark.createDataFrame
并将值作为元组列表传递:
spark.createDataFrame([(sparkdf.count(), len(sparkdf.columns))], schema=['rows', 'columns'])