pandas.read_csv 中是否有与 chunksize 参数等效的 pyarrow？

Question

我想在 RAM 中处理一个大文件 (5 gb)，但遇到内存不足错误。有没有办法像 pandas.read_csv?

那样分块处理镶木地板文件

import pyarrow.parquet as pq

    def main():
        df = pq.read_table('./data/train.parquet').to_pandas()            

    main()

Answer 1

目前还没有，但是关于添加这个选项还有待解决的问题（参见 https://issues.apache.org/jira/browse/ARROW-3771，其他）。请注意，内存使用将在即将发布的 0.12 版本中得到显着改善。

同时，您可以使用pyarrow.parquet.ParquetFile及其read_row_group方法一次读取一行。

Is there a pyarrow equivalent of the chunksize argument in pandas.read_csv?