pyarrow 中有没有办法查询镶木地板数据集分区的值？

Question

例如，我的数据集如下所示：

dataset
    ├── a=1
    │    └── 1.parquet
    ├── a=2
    │    └── 2.parquet
    ├── a=3
         └── 3.parquet

并且加载为 dataset = pyarrow.parquet.ParquetDataset('./dataset') 如何在不将整个数据集读入内存的情况下查询分区“a”的可用条目？谢谢~

Answer 1

参见 ParquetDataset 的 pieces 属性。每个 ParquetDatasetPiece 的 partition_keys 属性将为您提供每个分区键的值。如果您有关于 API 简化此操作的想法，请在 Apache Arrow 中打开一个 JIRA 问题。

另请参阅 https://issues.apache.org/jira/browse/ARROW-1956 关于阅读分区数据集的特定部分。

Is there a way in pyarrow to query the values of parquet dataset partitions?