如何将打印输出转换为 pyspark 数据帧(不允许 pandas)

How to convert print output to pyspark dataframe (no pandas allowed)

常用代码

print((sparkdf.count(), len(sparkdf.columns)))

由于我使用的是完全基于 HDFS 的 HDFS 系统,所以不允许pandas,我需要的输出

|-------|-------|
|row    |columns|
|-------|-------|
|1500   |    22 |
|-------|-------|

只需使用 spark.createDataFrame 并将值作为元组列表传递:

spark.createDataFrame([(sparkdf.count(), len(sparkdf.columns))], schema=['rows', 'columns'])