如何理解镶木地板文件名称的每个部分

how to understand each part of the name of a parquet file

案例: part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet

我在代码中找不到 parquet 文件的一些规则。 有人可以解释一下吗?

代码: https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/FileFormatWriter.scala

https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/internal/io/FileCommitProtocol.scala

在这种情况下:

part-00000 表示 Split (of a) 分区号。

-deb4a3d4-d8c3-4983-8756-ad7e0b29e780 表示随机 UUID 以允许在不冲突的 Spark Actions 中并发写入进程。

"c000"表示一个计数器,表示该分区已写入文件的次数。这是零,它指望。老实说,不确定如果超过 999 会发生什么。