从桶中读取时的火花分区数 - S3 - GCS
number of spark partitions when reading from buckets - S3 - GCS
S3 和 GCS 不是与 HDFS 相反的块存储,因此我不太清楚 Spark 在从这些源读取数据时如何创建分区。
我现在正在从 GCS 读取,但我得到 2 个分区用于小文件(10 字节),还有 100 MB 的中型文件。
有人解释一下吗?
一般是配置选项,"how big to lie about partition size"。
S3 和 GCS 不是与 HDFS 相反的块存储,因此我不太清楚 Spark 在从这些源读取数据时如何创建分区。 我现在正在从 GCS 读取,但我得到 2 个分区用于小文件(10 字节),还有 100 MB 的中型文件。
有人解释一下吗?
一般是配置选项,"how big to lie about partition size"。