在同一个 CSV 文件中保存多个不同大小的 columns/variables

Question

我有大约 100 列，每一列都有大量的值。我想将它们保存在一个 CSV 文件中，这样我就可以读取该文件并在我的代码中使用这些列中的值。唯一的问题是这些列彼此不相关并且它们的长度不同，因此从技术上讲它们不是数据帧的一部分。

我正在考虑将它们存储在 CSV 文件中，然后分别读取每一列并在我的代码中使用它。因为这些列的长度不同并且不是数据框的一部分，所以我想我必须在使用它之前过滤掉每列中的 NaN 值。

我想知道是否有更简单的方法可以存储（在文件中）和读取这些专栏。我正在考虑列表或类似的东西。

提前致谢。

Answer 1

CSV 格式不适合您的任务。

由于您已经有了一系列数据帧，我建议您考虑使用 HDF5 将数据帧有效地存储在单个文件中。您可以同时启用压缩：

for idx, df in enumerate(list_of_dfs):
    df.to_hdf('data.h5', f'df_{idx}', complib='zlib', complevel=5)

这会为每个数据帧附加一个有序的标识符，即 df_0、df_1 等。然后您可以通过 pd.read_hdf 读取特定的数据帧。例如：

first_df = pd.read_hdf('data.h5', key='df_0')

Saving multiple columns/variables with different sizes in the same CSV file