从桶中读取时的火花分区数 - S3 - GCS

number of spark partitions when reading from buckets - S3 - GCS

S3 和 GCS 不是与 HDFS 相反的块存储，因此我不太清楚 Spark 在从这些源读取数据时如何创建分区。我现在正在从 GCS 读取，但我得到 2 个分区用于小文件（10 字节），还有 100 MB 的中型文件。

有人解释一下吗？

一般是配置选项，"how big to lie about partition size"。