从桶中读取时的火花分区数 - S3 - GCS

number of spark partitions when reading from buckets - S3 - GCS

S3 和 GCS 不是与 HDFS 相反的块存储,因此我不太清楚 Spark 在从这些源读取数据时如何创建分区。 我现在正在从 GCS 读取,但我得到 2 个分区用于小文件(10 字节),还有 100 MB 的中型文件。

有人解释一下吗?

一般是配置选项,"how big to lie about partition size"。