如何理解镶木地板文件名称的每个部分
how to understand each part of the name of a parquet file
案例:
part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet
我在代码中找不到 parquet 文件的一些规则。
有人可以解释一下吗?
在这种情况下:
part-00000 表示 Split (of a) 分区号。
-deb4a3d4-d8c3-4983-8756-ad7e0b29e780 表示随机 UUID 以允许在不冲突的 Spark Actions 中并发写入进程。
"c000"表示一个计数器,表示该分区已写入文件的次数。这是零,它指望。老实说,不确定如果超过 999 会发生什么。
案例:
part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet
我在代码中找不到 parquet 文件的一些规则。 有人可以解释一下吗?
在这种情况下:
part-00000 表示 Split (of a) 分区号。
-deb4a3d4-d8c3-4983-8756-ad7e0b29e780 表示随机 UUID 以允许在不冲突的 Spark Actions 中并发写入进程。
"c000"表示一个计数器,表示该分区已写入文件的次数。这是零,它指望。老实说,不确定如果超过 999 会发生什么。