创建大型 pd.dataframe - 怎么样?
Creating a large pd.dataframe - how?
我想创建一个大的 pd.dataframe,共 7 个 4GB .txt 文件,我想使用它 + 保存到 .csv
我做了什么:
创建了一个 for 循环并在 axis=0 上一个接一个地打开连接,因此继续我的索引(时间戳)。
但是我 运行 遇到了内存问题,即使我在 100GB Ram 服务器上工作也是如此。我在某处读到 pandas 占数据大小的 5-10 倍。
我有什么选择?
一个是创建一个空的 csv - 打开它 + txt + 附加一个新块并保存。
其他想法?
使用 h5py 库创建 hdf5 文件将允许您创建一个大数据集并访问它,而无需将所有数据加载到内存中。
这个答案提供了一个如何创建和增量增加 hdf5 数据集的示例:incremental writes to hdf5 with h5py
我想创建一个大的 pd.dataframe,共 7 个 4GB .txt 文件,我想使用它 + 保存到 .csv
我做了什么:
创建了一个 for 循环并在 axis=0 上一个接一个地打开连接,因此继续我的索引(时间戳)。
但是我 运行 遇到了内存问题,即使我在 100GB Ram 服务器上工作也是如此。我在某处读到 pandas 占数据大小的 5-10 倍。
我有什么选择?
一个是创建一个空的 csv - 打开它 + txt + 附加一个新块并保存。
其他想法?
使用 h5py 库创建 hdf5 文件将允许您创建一个大数据集并访问它,而无需将所有数据加载到内存中。
这个答案提供了一个如何创建和增量增加 hdf5 数据集的示例:incremental writes to hdf5 with h5py