如何 select 仅对 pyspark 中数据帧的 70% 进行重新编码?

how to select only to 70% of recodes from dataframe in pyspark?

我有一个如下所示的 Dataframe

+----+-----+--------------------+
|test|count|             support|
+----+-----+--------------------+
|   A|    5| 0.23809523809523808|
|   B|    5| 0.23809523809523808|
|   C|    4| 0.19047619047619047|
|   K|    2| 0.09523809523809523|
|   G|    2| 0.09523809523809523|
|   L|    1|0.047619047619047616|
|   D|    1|0.047619047619047616|
|   F|    1|0.047619047619047616|
+----+-----+--------------------+

我只想select pyspark.i.e.

中给定数据帧的前 75% 的记录
+----+-----+--------------------+
|test|count|             support|
+----+-----+--------------------+
|   A|    5| 0.23809523809523808|
|   B|    5| 0.23809523809523808|
|   C|    4| 0.19047619047619047|
|   K|    2| 0.09523809523809523|
|   G|    2| 0.09523809523809523|
|   L|    1|0.047619047619047616|
+----+-----+--------------------+

您可以计算数据帧的大小乘以 0.75 并使用 limit 函数。它看起来像这样:

df75 = df.limit(int(df.count() * 0.75))