Python multiprocessing 执行脚本而不是函数
Python multiprocessing to execute scripts instead of function
1) multiprocessing
模块是否支持 Python 我可以用来启动第二个进程而不是函数的脚本文件?
目前我使用 multiprocessing.Process
接受一个函数,但我想改为执行 foo.py
。我可以使用 subprocess.Popen
但 multiprocessing.Process
的好处是我可以传递对象(即使它们只是腌制)。
为什么我使用multiprocessing.Process时,子进程中导入了my_module,但是print("foo")没有执行?
2) 当我使用multiprocessing.Process
时,为什么在子进程中导入了my_module
,而print("foo")
却没有执行? my_module如何在主作用域未执行的情况下可用?
import multiprocessing
import my_module
print("foo")
def worker():
print("bar")
my_module.foo()
return
p = multiprocessing.Process(target=worker, args=(1,2, d))
p.start()
p.join()
您可以使用 multiprocessing.pool() 并在您要执行的方法内传递函数。我个人使用过它,因为你可以将数据拆分成多个部分,并且还可以灵活地使用 cpu 的数量。
Python 函数与您要在另一个进程中 运行 的例程之间没有明显区别。函数只是过程。
假设您希望在另一个进程中 运行 的另一个脚本文件(在此上下文中为 foo.py
)具有以下内容:
# for demonstration only
from stuff import do_things
a = 'foo'
b = 1
do_things(a, b) # it doesn't matter what this does
您可以这样重构 foo.py
from stuff import do_things
def foo():
a = 'foo'
b = 1
do_things(a, b)
并且在模块中生成进程:
from foo import foo
p = multiprocess.Process(target=foo)
# ...
Process
API 要求 "callable" 作为 target
提供。如果说您尝试提供模块 foo
(其中 foo.py
是没有函数 foo
的第一个版本):
import foo
p = Process(target=foo)
p.start()
你会得到一个 TypeError: 'module' object is not callable
错误是有原因的。想象一下,当您导入 foo
模块时,它立即急切地执行,因为它没有包装在 function/procedure 又名 callable
中。尝试在模块文件中插入打印语句并导入它。立即评估模块级语句。
这回答了问题 2:
当您在顶层导入 my_module
时,即使未执行 worker
,每个模块也会导入一次。 my_module
可用于 worker
,因为 worker
过程 closes over my_module
。
当您将 worker
之类的子例程传递给并发进程时,无法保证它何时会被调用,甚至永远不会被调用。
您可以在 Python 模块中的任何位置导入模块,包括在 function/subroutine 中。但在这种情况下这样做可能不是最佳或必要的。
1) multiprocessing
模块是否支持 Python 我可以用来启动第二个进程而不是函数的脚本文件?
目前我使用 multiprocessing.Process
接受一个函数,但我想改为执行 foo.py
。我可以使用 subprocess.Popen
但 multiprocessing.Process
的好处是我可以传递对象(即使它们只是腌制)。
为什么我使用multiprocessing.Process时,子进程中导入了my_module,但是print("foo")没有执行?
2) 当我使用multiprocessing.Process
时,为什么在子进程中导入了my_module
,而print("foo")
却没有执行? my_module如何在主作用域未执行的情况下可用?
import multiprocessing
import my_module
print("foo")
def worker():
print("bar")
my_module.foo()
return
p = multiprocessing.Process(target=worker, args=(1,2, d))
p.start()
p.join()
您可以使用 multiprocessing.pool() 并在您要执行的方法内传递函数。我个人使用过它,因为你可以将数据拆分成多个部分,并且还可以灵活地使用 cpu 的数量。
Python 函数与您要在另一个进程中 运行 的例程之间没有明显区别。函数只是过程。
假设您希望在另一个进程中 运行 的另一个脚本文件(在此上下文中为 foo.py
)具有以下内容:
# for demonstration only
from stuff import do_things
a = 'foo'
b = 1
do_things(a, b) # it doesn't matter what this does
您可以这样重构 foo.py
from stuff import do_things
def foo():
a = 'foo'
b = 1
do_things(a, b)
并且在模块中生成进程:
from foo import foo
p = multiprocess.Process(target=foo)
# ...
Process
API 要求 "callable" 作为 target
提供。如果说您尝试提供模块 foo
(其中 foo.py
是没有函数 foo
的第一个版本):
import foo
p = Process(target=foo)
p.start()
你会得到一个 TypeError: 'module' object is not callable
错误是有原因的。想象一下,当您导入 foo
模块时,它立即急切地执行,因为它没有包装在 function/procedure 又名 callable
中。尝试在模块文件中插入打印语句并导入它。立即评估模块级语句。
这回答了问题 2:
当您在顶层导入 my_module
时,即使未执行 worker
,每个模块也会导入一次。 my_module
可用于 worker
,因为 worker
过程 closes over my_module
。
当您将 worker
之类的子例程传递给并发进程时,无法保证它何时会被调用,甚至永远不会被调用。
您可以在 Python 模块中的任何位置导入模块,包括在 function/subroutine 中。但在这种情况下这样做可能不是最佳或必要的。