pyarrow 中有没有办法查询镶木地板数据集分区的值?
Is there a way in pyarrow to query the values of parquet dataset partitions?
例如,我的数据集如下所示:
dataset
├── a=1
│ └── 1.parquet
├── a=2
│ └── 2.parquet
├── a=3
└── 3.parquet
并且加载为 dataset = pyarrow.parquet.ParquetDataset('./dataset')
如何在不将整个数据集读入内存的情况下查询分区“a
”的可用条目?谢谢~
参见 ParquetDataset
的 pieces
属性。每个 ParquetDatasetPiece
的 partition_keys
属性将为您提供每个分区键的值。如果您有关于 API 简化此操作的想法,请在 Apache Arrow 中打开一个 JIRA 问题。
另请参阅 https://issues.apache.org/jira/browse/ARROW-1956 关于 阅读 分区数据集的特定部分。
例如,我的数据集如下所示:
dataset
├── a=1
│ └── 1.parquet
├── a=2
│ └── 2.parquet
├── a=3
└── 3.parquet
并且加载为 dataset = pyarrow.parquet.ParquetDataset('./dataset')
如何在不将整个数据集读入内存的情况下查询分区“a
”的可用条目?谢谢~
参见 ParquetDataset
的 pieces
属性。每个 ParquetDatasetPiece
的 partition_keys
属性将为您提供每个分区键的值。如果您有关于 API 简化此操作的想法,请在 Apache Arrow 中打开一个 JIRA 问题。
另请参阅 https://issues.apache.org/jira/browse/ARROW-1956 关于 阅读 分区数据集的特定部分。