为什么 Numpy 和 Pandas 数组比源数据消耗更多内存?

Why Numpy and Pandas arrays consuming more memory than source data?

我是大数据的新手,我想解析整个数据,所以当我尝试使用 numpy 数组处理 1 GB 数据时我无法拆分它需要 4GB 内存(实时我正在处理大量数据).有没有优化的方法来使用这些数组来处理这么多数据,或者有什么特殊的函数来处理巨大的数据。

内存消耗在很大程度上取决于数据的存储方式。例如 1 作为字符串只需要一个字节,作为一个整数它需要两个字节和八个字节作为双精度。然后是在 DaataFrameSeries 的对象中创建它的开销。这一切都是为了高效处理。
作为一般经验法则,内存中的数据表示将比存储中的数据大。

大数据是指太大而无法放入内存(或在单台机器中处理)的数据。所以解析整个数据并将其加载到内存中是没有意义的。

所有大数据处理引擎都依赖于将数据拆分成块并单独(并行)处理这些块,然后将这些中间结果组合成一个。