在同一个 CSV 文件中保存多个不同大小的 columns/variables
Saving multiple columns/variables with different sizes in the same CSV file
我有大约 100 列,每一列都有大量的值。我想将它们保存在一个 CSV 文件中,这样我就可以读取该文件并在我的代码中使用这些列中的值。唯一的问题是这些列彼此不相关并且它们的长度不同,因此从技术上讲它们不是数据帧的一部分。
我正在考虑将它们存储在 CSV 文件中,然后分别读取每一列并在我的代码中使用它。因为这些列的长度不同并且不是数据框的一部分,所以我想我必须在使用它之前过滤掉每列中的 NaN
值。
我想知道是否有更简单的方法可以存储(在文件中)和读取这些专栏。我正在考虑列表或类似的东西。
提前致谢。
CSV 格式不适合您的任务。
由于您已经有了一系列数据帧,我建议您考虑使用 HDF5 将数据帧有效地存储在单个文件中。您可以同时启用压缩:
for idx, df in enumerate(list_of_dfs):
df.to_hdf('data.h5', f'df_{idx}', complib='zlib', complevel=5)
这会为每个数据帧附加一个有序的标识符,即 df_0
、df_1
等。然后您可以通过 pd.read_hdf
读取特定的数据帧。例如:
first_df = pd.read_hdf('data.h5', key='df_0')
我有大约 100 列,每一列都有大量的值。我想将它们保存在一个 CSV 文件中,这样我就可以读取该文件并在我的代码中使用这些列中的值。唯一的问题是这些列彼此不相关并且它们的长度不同,因此从技术上讲它们不是数据帧的一部分。
我正在考虑将它们存储在 CSV 文件中,然后分别读取每一列并在我的代码中使用它。因为这些列的长度不同并且不是数据框的一部分,所以我想我必须在使用它之前过滤掉每列中的 NaN
值。
我想知道是否有更简单的方法可以存储(在文件中)和读取这些专栏。我正在考虑列表或类似的东西。
提前致谢。
CSV 格式不适合您的任务。
由于您已经有了一系列数据帧,我建议您考虑使用 HDF5 将数据帧有效地存储在单个文件中。您可以同时启用压缩:
for idx, df in enumerate(list_of_dfs):
df.to_hdf('data.h5', f'df_{idx}', complib='zlib', complevel=5)
这会为每个数据帧附加一个有序的标识符,即 df_0
、df_1
等。然后您可以通过 pd.read_hdf
读取特定的数据帧。例如:
first_df = pd.read_hdf('data.h5', key='df_0')