Parquet 文件大小如何随 Spark 数据集中的计数而变化

How does Parquet file size changes with the count in Spark Dataset

我遇到了一个场景，我有 24 列的 spark 数据集，我按前 22 列分组并对最后两列求和。

我从查询中删除了分组依据，现在我选择了所有 24 列。数据集的初始计数为 79,304。

删除分组后，计数增加到 138,204，这是可以理解的，因为我删除了分组。

但我不清楚 parquet 文件的初始大小为 2.3MB 但后来减小到 1.5MB[=24= 的行为] 。谁能帮我理解这一点。

也不是每次缩小尺寸的时候，我对 22 列有类似的情况之前的计数是 35,298,226，删除分组后的计数是 59,874,208 这里的大小从 466.5MB 增加到 509.8MB

在处理镶木地板尺寸时，它与行数无关，而与它自身的数据有关。 Parquet 是面向列的格式，因此它按列存储数据并按列压缩数据。因此，这与行数无关，而是与列的多样性有关。

Parquet 将做更好的压缩作为多样性列中最多样化的 table。因此，如果您有一个列数据框，它将被压缩为列值之间的距离。