pandas.read_csv 中是否有与 chunksize 参数等效的 pyarrow?

Is there a pyarrow equivalent of the chunksize argument in pandas.read_csv?

我想在 RAM 中处理一个大文件 (5 gb),但遇到内存不足错误。有没有办法像 pandas.read_csv?

那样分块处理镶木地板文件
import pyarrow.parquet as pq

    def main():
        df = pq.read_table('./data/train.parquet').to_pandas()            

    main()   

目前还没有,但是关于添加这个选项还有待解决的问题(参见 https://issues.apache.org/jira/browse/ARROW-3771,其他)。请注意,内存使用将在即将发布的 0.12 版本中得到显着改善。

同时,您可以使用pyarrow.parquet.ParquetFile及其read_row_group方法一次读取一行。