对于混合类型数据,Pandas 中的数据存储的最佳选择是什么?
What is the best choice for data storage in Pandas for mixed type data?
我正在处理一个存储为 ndjson
的大型数据集,其中数据的每一行都是一个 json 对象,我逐行阅读并使用 pandas json_normalise()
将每个展平并将其作为数据框保存在列表中,然后我将此列表连接起来。
整个过程在高性能机器上需要大约 2 小时,所以我想保存结果,这样我就不必重复了,但是,我尝试使用 to_hdfs 和 to_parquet但两者都失败了,我认为这是由于大多数列具有混合数据类型,其中可能存在字符串、浮点数和整数,这是混乱的数据收集系统不可避免的结果。
在清理之前存储这些未处理数据的最合适方法是什么?
我认为这里应该有所帮助pickle
。
写 DataFrame/Series
使用 to_pickle
.
回读使用read_pickle
。
我正在处理一个存储为 ndjson
的大型数据集,其中数据的每一行都是一个 json 对象,我逐行阅读并使用 pandas json_normalise()
将每个展平并将其作为数据框保存在列表中,然后我将此列表连接起来。
整个过程在高性能机器上需要大约 2 小时,所以我想保存结果,这样我就不必重复了,但是,我尝试使用 to_hdfs 和 to_parquet但两者都失败了,我认为这是由于大多数列具有混合数据类型,其中可能存在字符串、浮点数和整数,这是混乱的数据收集系统不可避免的结果。
在清理之前存储这些未处理数据的最合适方法是什么?
我认为这里应该有所帮助pickle
。
写 DataFrame/Series
使用 to_pickle
.
回读使用read_pickle
。