我可以在单核机器上 运行 多处理 Python 程序吗?
Can I run multiprocessing Python programs on a single core machine?
所以这或多或少是一个理论问题。我有一台单核机器,据说功能强大但只有一个核心。现在我有两个选择:
多线程:据我所知,由于 GIL,我不能在我的机器中使用多个内核,即使我有它们也是如此。因此在这种情况下,它没有任何区别。
Multiprocessing:这是我有疑问的地方。我可以在单核机器上进行多处理吗?或者每次我必须检查我的机器中可用的内核然后 运行 完全相同或更少的进程数?
有人可以指导我了解机器中多处理和核心之间的关系吗?
我知道这是一个理论问题,但我对此的概念不是很清楚。
multiprocessing 模块基本上生成多个 python 解释器实例,所以不用担心 GIL。
multiprocessing 使用与 threading 模块相同的 API 如果您以前使用过它。
您似乎混淆了多处理、线程 (您指的是多线程) 和 X 核处理器。
- 无论如何,当你启动Python (CPython实现)它只会使用你处理器的一个核心。
- 线程正在脚本的不同组件之间分配负载。假设您必须与外部 API 进行交互,您的脚本必须等待通信完成,直到它进行下一步。您正在拨打多个类似的电话,这将花费线性时间。而如果您使用线程,则可以并行执行这些调用。
另请参阅:PyPy implementation of Python
您可以在单核系统中同时使用多线程和多处理。
GIL 限制了纯 Python 中多线程对计算密集型任务的实用性,无论您的底层架构如何。对于 I/O-bound 个任务,它们确实工作得很好。如果它们没有任何用处,它们可能一开始就不会实施。
对于纯 Python 软件,在并行计算方面,多处理始终是更安全的选择。当然,多进程比多线程更昂贵(因为进程不共享内存,与线程相反;而且,与线程相比,进程的开销略高)。
然而,对于单处理器机器,多处理(和多线程)对于计算繁重的任务几乎不会给你带来额外的速度,它们实际上甚至会让你慢一点。但是,如果 OS 支持它们(这在台式机、工作站、集群等中很常见,但在嵌入式系统中可能不常见),它们允许您有效地 运行 同时多个 I/O-bound 程序。
长话短说,这有点取决于你在做什么...
这是一个很大的话题,但这里有一些提示。
- 将线程视为共享相同地址 space 并且可以访问相同内存的进程。通信是通过共享变量完成的。多个线程可以 运行 在同一个进程中。
- 进程(在这种情况下,粗略地说)有自己的私有数据,如果两个进程想要通信,则必须更明确地进行通信。
- 当您编写的程序的瓶颈是 CPU 个周期时,线程或进程都不会在单核机器上为您提供加速。
- 进程和线程对于多任务处理(在(子)程序之间快速切换)仍然很有用 - 这就是您的操作系统所做的,因为它 运行 进程比您拥有的内核多得多。
- 如果您正在执行的任务是 I/O 绑定的,那么即使在单核机器上,进程和线程(甚至协程!)也可以为您提供相当大的加速 - 考虑从网络获取数据。例如,不是主动等待数据发送或到达,而是另一个进程或线程可以发起下一个网络操作。
- 当您不需要显式封装时,线程比进程更可取,因为它们的开销较低。对于大多数 CPU 绑定的并发问题,尤其是“embarassingly parallel”问题的大部分子集,产生比处理器更多的进程没有多大意义。
- Python GIL 防止同一进程中的两个线程运行并行,即多个内核同时执行指令。
- 因此 Python 中的线程对于加速 CPU 绑定任务相对无用,但对于 I/O 绑定任务仍然非常有用,因为阻塞操作(例如等待网络数据)释放 GIL,这样另一个线程可以 运行 而另一个等待。
- 如果您有多个处理器,尽管有 GIL,您可以通过生成多个进程来实现真正的并行性。这仅对于 CPU 绑定任务是值得的,而且通常您必须考虑生成进程的开销和进程之间的通信成本。
所以这或多或少是一个理论问题。我有一台单核机器,据说功能强大但只有一个核心。现在我有两个选择:
多线程:据我所知,由于 GIL,我不能在我的机器中使用多个内核,即使我有它们也是如此。因此在这种情况下,它没有任何区别。
Multiprocessing:这是我有疑问的地方。我可以在单核机器上进行多处理吗?或者每次我必须检查我的机器中可用的内核然后 运行 完全相同或更少的进程数?
有人可以指导我了解机器中多处理和核心之间的关系吗?
我知道这是一个理论问题,但我对此的概念不是很清楚。
multiprocessing 模块基本上生成多个 python 解释器实例,所以不用担心 GIL。
multiprocessing 使用与 threading 模块相同的 API 如果您以前使用过它。
您似乎混淆了多处理、线程 (您指的是多线程) 和 X 核处理器。
- 无论如何,当你启动Python (CPython实现)它只会使用你处理器的一个核心。
- 线程正在脚本的不同组件之间分配负载。假设您必须与外部 API 进行交互,您的脚本必须等待通信完成,直到它进行下一步。您正在拨打多个类似的电话,这将花费线性时间。而如果您使用线程,则可以并行执行这些调用。
另请参阅:PyPy implementation of Python
您可以在单核系统中同时使用多线程和多处理。
GIL 限制了纯 Python 中多线程对计算密集型任务的实用性,无论您的底层架构如何。对于 I/O-bound 个任务,它们确实工作得很好。如果它们没有任何用处,它们可能一开始就不会实施。
对于纯 Python 软件,在并行计算方面,多处理始终是更安全的选择。当然,多进程比多线程更昂贵(因为进程不共享内存,与线程相反;而且,与线程相比,进程的开销略高)。
然而,对于单处理器机器,多处理(和多线程)对于计算繁重的任务几乎不会给你带来额外的速度,它们实际上甚至会让你慢一点。但是,如果 OS 支持它们(这在台式机、工作站、集群等中很常见,但在嵌入式系统中可能不常见),它们允许您有效地 运行 同时多个 I/O-bound 程序。
长话短说,这有点取决于你在做什么...
这是一个很大的话题,但这里有一些提示。
- 将线程视为共享相同地址 space 并且可以访问相同内存的进程。通信是通过共享变量完成的。多个线程可以 运行 在同一个进程中。
- 进程(在这种情况下,粗略地说)有自己的私有数据,如果两个进程想要通信,则必须更明确地进行通信。
- 当您编写的程序的瓶颈是 CPU 个周期时,线程或进程都不会在单核机器上为您提供加速。
- 进程和线程对于多任务处理(在(子)程序之间快速切换)仍然很有用 - 这就是您的操作系统所做的,因为它 运行 进程比您拥有的内核多得多。
- 如果您正在执行的任务是 I/O 绑定的,那么即使在单核机器上,进程和线程(甚至协程!)也可以为您提供相当大的加速 - 考虑从网络获取数据。例如,不是主动等待数据发送或到达,而是另一个进程或线程可以发起下一个网络操作。
- 当您不需要显式封装时,线程比进程更可取,因为它们的开销较低。对于大多数 CPU 绑定的并发问题,尤其是“embarassingly parallel”问题的大部分子集,产生比处理器更多的进程没有多大意义。
- Python GIL 防止同一进程中的两个线程运行并行,即多个内核同时执行指令。
- 因此 Python 中的线程对于加速 CPU 绑定任务相对无用,但对于 I/O 绑定任务仍然非常有用,因为阻塞操作(例如等待网络数据)释放 GIL,这样另一个线程可以 运行 而另一个等待。
- 如果您有多个处理器,尽管有 GIL,您可以通过生成多个进程来实现真正的并行性。这仅对于 CPU 绑定任务是值得的,而且通常您必须考虑生成进程的开销和进程之间的通信成本。