如何 select 仅对 pyspark 中数据帧的 70% 进行重新编码?
how to select only to 70% of recodes from dataframe in pyspark?
我有一个如下所示的 Dataframe
+----+-----+--------------------+
|test|count| support|
+----+-----+--------------------+
| A| 5| 0.23809523809523808|
| B| 5| 0.23809523809523808|
| C| 4| 0.19047619047619047|
| K| 2| 0.09523809523809523|
| G| 2| 0.09523809523809523|
| L| 1|0.047619047619047616|
| D| 1|0.047619047619047616|
| F| 1|0.047619047619047616|
+----+-----+--------------------+
我只想select pyspark.i.e.
中给定数据帧的前 75% 的记录
+----+-----+--------------------+
|test|count| support|
+----+-----+--------------------+
| A| 5| 0.23809523809523808|
| B| 5| 0.23809523809523808|
| C| 4| 0.19047619047619047|
| K| 2| 0.09523809523809523|
| G| 2| 0.09523809523809523|
| L| 1|0.047619047619047616|
+----+-----+--------------------+
您可以计算数据帧的大小乘以 0.75
并使用 limit
函数。它看起来像这样:
df75 = df.limit(int(df.count() * 0.75))
我有一个如下所示的 Dataframe
+----+-----+--------------------+
|test|count| support|
+----+-----+--------------------+
| A| 5| 0.23809523809523808|
| B| 5| 0.23809523809523808|
| C| 4| 0.19047619047619047|
| K| 2| 0.09523809523809523|
| G| 2| 0.09523809523809523|
| L| 1|0.047619047619047616|
| D| 1|0.047619047619047616|
| F| 1|0.047619047619047616|
+----+-----+--------------------+
我只想select pyspark.i.e.
中给定数据帧的前 75% 的记录+----+-----+--------------------+
|test|count| support|
+----+-----+--------------------+
| A| 5| 0.23809523809523808|
| B| 5| 0.23809523809523808|
| C| 4| 0.19047619047619047|
| K| 2| 0.09523809523809523|
| G| 2| 0.09523809523809523|
| L| 1|0.047619047619047616|
+----+-----+--------------------+
您可以计算数据帧的大小乘以 0.75
并使用 limit
函数。它看起来像这样:
df75 = df.limit(int(df.count() * 0.75))