多处理——使用管理器命名空间来节省内存
Multiprocessing - using the Managers Namespace to save memory
我有几个进程,每个进程都需要一个大的 numpy 数组来完成任务,这只是被读取(线程正在搜索它以寻找合适的值)。
如果每个进程都加载数据,我会收到内存错误。
因此,我试图通过使用管理器在进程之间共享相同的数组来尽量减少内存使用量。
但是我仍然收到内存错误。我 可以在主进程中加载数组 一次,但是当我尝试使它成为管理器命名空间的 属性 时,我收到 内存错误。我假设管理器就像指针一样,并允许单独的进程(通常只能访问它们自己的内存)也可以访问这个共享内存。但是错误提到酸洗:
Traceback (most recent call last):
File <PATH>, line 63, in <module>
ns.pp = something
File "C:\Program Files (x86)\Python35-32\lib\multiprocessing\managers.py", line 1021, in __setattr__
return callmethod('__setattr__', (key, value))
File "C:\Program Files (x86)\Python35-32\lib\multiprocessing\managers.py", line 716, in _callmethod
conn.send((self._id, methodname, args, kwds))
File "C:\Program Files (x86)\Python35-32\lib\multiprocessing\connection.py", line 206, in send
self._send_bytes(ForkingPickler.dumps(obj))
File "C:\Program Files (x86)\Python35-32\lib\multiprocessing\reduction.py", line 50, in dumps
cls(buf, protocol).dump(obj)
MemoryError
我假设分配给管理器时实际上正在复制 numpy 数组,但我可能错了。
更让人恼火的是,我在一台内存为 32GB 的机器上观察内存使用情况,它只在崩溃前增加了一点,最多可能增加 5%-10%。
有人可以解释一下为什么将数组作为命名空间的属性会占用更多内存吗?和为什么我的程序不会使用一些备用内存内存可用吗?(我已经阅读了 SO 上的 namespace and manager docs as well as these managers and namespace 线程。
我是 运行 Windows Server 2012 R2 和 Python 3.5.2 32 位。
下面是一些演示我的问题的代码(您需要使用 large.txt
的替代文件,这个文件是大约 75MB 的制表符分隔字符串):
import multiprocessing
import numpy as np
if __name__ == '__main__':
# load Price Paid Data and assign to manager
mgr = multiprocessing.Manager()
ns = mgr.Namespace()
ns.data = np.genfromtxt('large.txt')
# Alternative proving this work for smaller objects
# ns.data = 'Test PP data'
管理器类型是为灵活性而不是效率而构建的。他们创建一个保存值的服务器进程,并且可以 return 将对象代理到每个需要它们的进程。服务器和代理通过 tls 进行通信以允许服务器和代理位于不同的机器上,但这必然意味着复制有问题的任何对象。我并没有一路追根溯源,所以多出的副本有可能在使用后被垃圾回收,但至少最初必须有一个副本。
如果你想要共享物理内存,我建议使用Shared ctypes Objects. These actually do point to a common location in memory, and therefore are much faster, and resource-light. They do not support all the same things full fat python objects do, but they can be extended by creating structs来组织你的数据。
我有几个进程,每个进程都需要一个大的 numpy 数组来完成任务,这只是被读取(线程正在搜索它以寻找合适的值)。
如果每个进程都加载数据,我会收到内存错误。
因此,我试图通过使用管理器在进程之间共享相同的数组来尽量减少内存使用量。
但是我仍然收到内存错误。我 可以在主进程中加载数组 一次,但是当我尝试使它成为管理器命名空间的 属性 时,我收到 内存错误。我假设管理器就像指针一样,并允许单独的进程(通常只能访问它们自己的内存)也可以访问这个共享内存。但是错误提到酸洗:
Traceback (most recent call last):
File <PATH>, line 63, in <module>
ns.pp = something
File "C:\Program Files (x86)\Python35-32\lib\multiprocessing\managers.py", line 1021, in __setattr__
return callmethod('__setattr__', (key, value))
File "C:\Program Files (x86)\Python35-32\lib\multiprocessing\managers.py", line 716, in _callmethod
conn.send((self._id, methodname, args, kwds))
File "C:\Program Files (x86)\Python35-32\lib\multiprocessing\connection.py", line 206, in send
self._send_bytes(ForkingPickler.dumps(obj))
File "C:\Program Files (x86)\Python35-32\lib\multiprocessing\reduction.py", line 50, in dumps
cls(buf, protocol).dump(obj)
MemoryError
我假设分配给管理器时实际上正在复制 numpy 数组,但我可能错了。
更让人恼火的是,我在一台内存为 32GB 的机器上观察内存使用情况,它只在崩溃前增加了一点,最多可能增加 5%-10%。
有人可以解释一下为什么将数组作为命名空间的属性会占用更多内存吗?和为什么我的程序不会使用一些备用内存内存可用吗?(我已经阅读了 SO 上的 namespace and manager docs as well as these managers and namespace 线程。
我是 运行 Windows Server 2012 R2 和 Python 3.5.2 32 位。
下面是一些演示我的问题的代码(您需要使用 large.txt
的替代文件,这个文件是大约 75MB 的制表符分隔字符串):
import multiprocessing
import numpy as np
if __name__ == '__main__':
# load Price Paid Data and assign to manager
mgr = multiprocessing.Manager()
ns = mgr.Namespace()
ns.data = np.genfromtxt('large.txt')
# Alternative proving this work for smaller objects
# ns.data = 'Test PP data'
管理器类型是为灵活性而不是效率而构建的。他们创建一个保存值的服务器进程,并且可以 return 将对象代理到每个需要它们的进程。服务器和代理通过 tls 进行通信以允许服务器和代理位于不同的机器上,但这必然意味着复制有问题的任何对象。我并没有一路追根溯源,所以多出的副本有可能在使用后被垃圾回收,但至少最初必须有一个副本。
如果你想要共享物理内存,我建议使用Shared ctypes Objects. These actually do point to a common location in memory, and therefore are much faster, and resource-light. They do not support all the same things full fat python objects do, but they can be extended by creating structs来组织你的数据。