python多线程比串行慢?

and*_*dge 8 python multithreading

我正在尝试在python中找出多线程编程.这是我想要比较串行和并行速度的简单任务.

import threading
import Queue
import time
import math

def sinFunc(offset, n):
  result = []
  for i in range(n):
    result.append(math.sin(offset + i * i))
  return result

def timeSerial(k, n):
  t1 = time.time()    
  answers = []
  for i in range(k):
    answers.append(sinFunc(i, n))
  t2 = time.time()
  print "Serial time elapsed: %f" % (t2-t1)

class Worker(threading.Thread):

  def __init__(self, queue, name):
    self.__queue = queue
    threading.Thread.__init__(self)
    self.name = name

  def process(self, item):
    offset, n = item
    self.__queue.put(sinFunc(offset, n))
    self.__queue.task_done()
    self.__queue.task_done()

  def run(self):
    while 1:
        item = self.__queue.get()
        if item is None:
            self.__queue.task_done()
            break
        self.process(item)

def timeParallel(k, n, numThreads):
  t1 = time.time()    
  queue = Queue.Queue(0)
  for i in range(k):
    queue.put((i, n))
  for i in range(numThreads):
    queue.put(None)    
  for i in range(numThreads):
    Worker(queue, i).start()
  queue.join()
  t2 = time.time()
  print "Serial time elapsed: %f" % (t2-t1)

if __name__ == '__main__':

  n = 100000
  k = 100
  numThreads = 10

  timeSerial(k, n)
  timeParallel(k, n, numThreads)

#Serial time elapsed: 2.350883
#Serial time elapsed: 2.843030
Run Code Online (Sandbox Code Playgroud)

有人可以向我解释发生了什么事吗?我已经习惯了C++,使用该模块的类似版本看到了我们所期望的加速.

jdi*_*jdi 16

其他答案提到了GIL问题是cpython中的问题.但我觉得有一些遗漏的信息.在线程中运行的代码受CPU限制的情况下,这将导致性能问题.在你的情况下,是的,在线程中做很多计算很可能会导致性能急剧下降.

但是,如果您正在执行更多IO绑定的操作,例如从网络应用程序中的许多套接字读取,或者调用子进程,则可以从线程中获得性能提升.上面代码的一个简单示例是向shell添加一个简单的简单调用:

import os

def sinFunc(offset, n):
  result = []
  for i in xrange(n):
    result.append(math.sin(offset + i * i))
  os.system("echo 'could be a database query' >> /dev/null; sleep .1")
  return result
Run Code Online (Sandbox Code Playgroud)

那个调用可能就像等待文件系统一样真实.但是你可以看到,在这个例子中,线程将开始证明是有益的,因为当线程在IO上等待并且其他线程将继续处理时可以释放GIL.即便如此,当更多线程开始被创建它们并同步它们的开销所抵消时,仍然有一个最佳点.

对于CPU绑定代码,您将使用多处理

来自文章:http://www.informit.com/articles/article.aspx? p = 1850445&seqNum = 9

...线程更适合I/O绑定的应用程序(I/O发布GIL,允许更多的并发)...

关于线程与进程的类似问题参考:
https://stackoverflow.com/a/1227204/496445
/sf/answers/69330551/

  • +1 用于区分 CPU 和 IO 绑定线程以及引用多处理。 (2认同)

cha*_*ite 6

Python 有一个严重的线程问题。基本上,向 Python 应用程序添加线程几乎总是无法使其更快,有时会使其更慢。

这是由于Global Interpreter Lock或 GIL。

这是关于它的博客文章,其中包括有关该主题的演讲。

绕过此限制的一种方法是使用进程而不是线程;多处理模块使这更容易。

  • 你认为说“几乎总是不能让它更快”真的正确吗?是不是完全依赖于应用是IO还是cpu绑定的?我觉得一揽子声明具有误导性。 (8认同)
  • 我了解 GIL 问题。我是说,如果在线程中完成的工作是 IO 绑定的,那么它将适合线程方法,因为 GIL 可以经常释放。我指的是它是一个全面的 python 线程语句。 (2认同)
  • 是的,有问题。然而,这是否意味着线程“几乎总是”会受到伤害,甚至是明智地使用 I/O 绑定线程? (2认同)