如何使用 Python 多处理和 memory_profiler 分析多个子进程?
How to profile multiple subprocesses using Python multiprocessing and memory_profiler?
我有一个实用程序可以使用 Python multiprocessing
module, and I'd like to be able to track their memory usage via the excellent memory_profiler
实用程序生成多个工作程序,它可以完成我想要的一切 - 特别是随着时间的推移对内存使用情况进行采样并绘制最终结果(我不关心与这个问题的逐行内存分析)。
为了设置这个问题,我创建了一个更简单的脚本版本,它有一个工作函数,它分配内存类似于 memory_profiler
库中给出的 example。工人如下:
import time
X6 = 10 ** 6
X7 = 10 ** 7
def worker(num, wait, amt=X6):
"""
A function that allocates memory over time.
"""
frame = []
for idx in range(num):
frame.extend([1] * amt)
time.sleep(wait)
del frame
给定 4 个工人的顺序工作量如下:
if __name__ == '__main__':
worker(5, 5, X6)
worker(5, 2, X7)
worker(5, 5, X6)
worker(5, 2, X7)
运行 mprof
可执行文件分析我的脚本需要 70 秒,每个工作人员 运行 一个接一个。脚本,运行如下:
$ mprof run python myscript.py
生成以下内存使用图:
让这些工作人员与 multiprocessing
并行意味着脚本将以最慢的工作人员(25 秒)的速度完成。该脚本如下:
import multiprocessing as mp
if __name__ == '__main__':
pool = mp.Pool(processes=4)
tasks = [
pool.apply_async(worker, args) for args in
[(5, 5, X6), (5, 2, X7), (5, 5, X6), (5, 2, X7)]
]
results = [p.get() for p in tasks]
Memory profiler 确实有效,或者至少在使用时没有错误 mprof
但结果有点奇怪:
快速查看 Activity Monitor 显示实际上有 6 个 Python 进程,一个用于 mprof
一个用于 python myscript.py
然后每个工作子进程一个. mprof
似乎只测量 python myscript.py
进程的内存使用情况。
memory_profiler
库是高度可定制的,我非常有信心我应该能够捕获每个进程的内存,并可能通过使用库本身将它们写出到单独的日志文件中。我只是不确定从哪里开始或如何实现该级别的自定义。
编辑
通读 mprof
脚本后,我确实发现了 -C
标志,它总结了所有子(分叉)进程的内存使用情况。这导致了一个(大大改进的)图表如下:
但我正在寻找的是每个子进程随时间的内存使用情况,这样我就可以在同一张图表上绘制所有工作人员(和主进程)。我的想法是将每个子进程 memory_usage
写入不同的日志文件,然后我可以将其可视化。
截至今天,内存分析器库中已添加了一项新功能来完成此操作。如果您需要此功能,请先更新 memory_profiler 如下:
$ pip install -U memory_profiler
这应该安装 v0.44 版本的内存分析器。要检查是否是这种情况,请在 运行 操作上使用帮助命令:
mprof run --help
Usage: mprof run [options]
Options:
--version show program's version number and exit
-h, --help show this help message and exit
--python Activates extra features when the profiling executable
is a Python program (currently: function
timestamping.)
--nopython Disables extra features when the profiled executable
is a Python program (currently: function
timestamping.)
-T INTERVAL, --interval=INTERVAL
Sampling period (in seconds), defaults to 0.1
-C, --include-children
Monitors forked processes as well (sum up all process
memory)
-M, --multiprocess Monitors forked processes creating individual plots
for each child
如果您看到 -M
标志,那么您就可以开始了!
然后您可以 运行 您的脚本如下:
$ mprof run -M python myscript.py
$ mprof plot
你应该得到一个看起来像这样的图:
请注意,如果您也使用 --include-children
标志,则主进程内存将是所有子进程和主进程的总内存使用量,这也是一个有用的情节。
我有一个实用程序可以使用 Python multiprocessing
module, and I'd like to be able to track their memory usage via the excellent memory_profiler
实用程序生成多个工作程序,它可以完成我想要的一切 - 特别是随着时间的推移对内存使用情况进行采样并绘制最终结果(我不关心与这个问题的逐行内存分析)。
为了设置这个问题,我创建了一个更简单的脚本版本,它有一个工作函数,它分配内存类似于 memory_profiler
库中给出的 example。工人如下:
import time
X6 = 10 ** 6
X7 = 10 ** 7
def worker(num, wait, amt=X6):
"""
A function that allocates memory over time.
"""
frame = []
for idx in range(num):
frame.extend([1] * amt)
time.sleep(wait)
del frame
给定 4 个工人的顺序工作量如下:
if __name__ == '__main__':
worker(5, 5, X6)
worker(5, 2, X7)
worker(5, 5, X6)
worker(5, 2, X7)
运行 mprof
可执行文件分析我的脚本需要 70 秒,每个工作人员 运行 一个接一个。脚本,运行如下:
$ mprof run python myscript.py
生成以下内存使用图:
让这些工作人员与 multiprocessing
并行意味着脚本将以最慢的工作人员(25 秒)的速度完成。该脚本如下:
import multiprocessing as mp
if __name__ == '__main__':
pool = mp.Pool(processes=4)
tasks = [
pool.apply_async(worker, args) for args in
[(5, 5, X6), (5, 2, X7), (5, 5, X6), (5, 2, X7)]
]
results = [p.get() for p in tasks]
Memory profiler 确实有效,或者至少在使用时没有错误 mprof
但结果有点奇怪:
快速查看 Activity Monitor 显示实际上有 6 个 Python 进程,一个用于 mprof
一个用于 python myscript.py
然后每个工作子进程一个. mprof
似乎只测量 python myscript.py
进程的内存使用情况。
memory_profiler
库是高度可定制的,我非常有信心我应该能够捕获每个进程的内存,并可能通过使用库本身将它们写出到单独的日志文件中。我只是不确定从哪里开始或如何实现该级别的自定义。
编辑
通读 mprof
脚本后,我确实发现了 -C
标志,它总结了所有子(分叉)进程的内存使用情况。这导致了一个(大大改进的)图表如下:
但我正在寻找的是每个子进程随时间的内存使用情况,这样我就可以在同一张图表上绘制所有工作人员(和主进程)。我的想法是将每个子进程 memory_usage
写入不同的日志文件,然后我可以将其可视化。
截至今天,内存分析器库中已添加了一项新功能来完成此操作。如果您需要此功能,请先更新 memory_profiler 如下:
$ pip install -U memory_profiler
这应该安装 v0.44 版本的内存分析器。要检查是否是这种情况,请在 运行 操作上使用帮助命令:
mprof run --help
Usage: mprof run [options]
Options:
--version show program's version number and exit
-h, --help show this help message and exit
--python Activates extra features when the profiling executable
is a Python program (currently: function
timestamping.)
--nopython Disables extra features when the profiled executable
is a Python program (currently: function
timestamping.)
-T INTERVAL, --interval=INTERVAL
Sampling period (in seconds), defaults to 0.1
-C, --include-children
Monitors forked processes as well (sum up all process
memory)
-M, --multiprocess Monitors forked processes creating individual plots
for each child
如果您看到 -M
标志,那么您就可以开始了!
然后您可以 运行 您的脚本如下:
$ mprof run -M python myscript.py
$ mprof plot
你应该得到一个看起来像这样的图:
请注意,如果您也使用 --include-children
标志,则主进程内存将是所有子进程和主进程的总内存使用量,这也是一个有用的情节。