如何确定 Python 中 H2O 帧的字节大小?
How to determine size in bytes of H2O frame in Python?
我正在将 Spark 数据帧加载到 H2O(使用 Python)以构建机器学习模型。有人建议我分配一个 H2O 集群,其中的 RAM 是我将要训练的框架的 2-4 倍大,这样分析就可以轻松地适应内存。但是我不知道如何精确估计一个H2O框架的大小。
所以假设我有一个 H2O 帧已经加载到 Python,我如何实际确定它的大小(以字节为单位)?大约在 10-20% 以内即可。
这是指磁盘上文件大小的 2-4 倍,因此与其查看 Python 中的内存,不如查看原始文件大小。此外,2-4 倍的建议因算法而异(GLM 和 DL 需要的内存比基于树的模型少)。
这将显示 H2O 键值存储中底层表示的摘要,包括完整的字节大小:
frame.describe(chunk_summary=True)
我正在将 Spark 数据帧加载到 H2O(使用 Python)以构建机器学习模型。有人建议我分配一个 H2O 集群,其中的 RAM 是我将要训练的框架的 2-4 倍大,这样分析就可以轻松地适应内存。但是我不知道如何精确估计一个H2O框架的大小。
所以假设我有一个 H2O 帧已经加载到 Python,我如何实际确定它的大小(以字节为单位)?大约在 10-20% 以内即可。
这是指磁盘上文件大小的 2-4 倍,因此与其查看 Python 中的内存,不如查看原始文件大小。此外,2-4 倍的建议因算法而异(GLM 和 DL 需要的内存比基于树的模型少)。
这将显示 H2O 键值存储中底层表示的摘要,包括完整的字节大小:
frame.describe(chunk_summary=True)