python 使用数据帧的并行处理错误

Question

我有一个数据框 HH，如下所示：

     end_Date  latitude  longitude start_Date
0    9/5/2014   41.8927   -90.4031   4/1/2014
1    9/5/2014   41.8928   -90.4031   4/1/2014
2    9/5/2014   41.8927   -90.4030   4/1/2014
3    9/5/2014   41.8928   -90.4030   4/1/2014
4    9/5/2014   41.8928   -90.4029   4/1/2014
5    9/5/2014   41.8923   -90.4028   4/1/2014

我正在尝试使用 python 中的多处理包并行化我的函数：这是我写的：

if __name__ =='__main__':    
    pool = Pool(200)
    start = time.time()
    print "Hello"
    H = pool.map(funct_parallel, HH)
    pool.close()
    pool.join()

当我运行此代码时，出现以下错误：

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Users\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 685, in runfile
    execfile(filename, namespace)
  File "C:\Users\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 71, in execfile
    exec(compile(scripttext, filename, 'exec'), glob, loc)
  File "C:/Users/Desktop/testparallel.py", line 198, in <module>
    H = pool.map(funct_parallel, HH)
  File "C:\Users\AppData\Local\Continuum\Anaconda2\lib\multiprocessing\pool.py", line 251, in map
    return self.map_async(func, iterable, chunksize).get()
  File "C:\Users\AppData\Local\Continuum\Anaconda2\lib\multiprocessing\pool.py", line 567, in get
    raise self._value
TypeError: string indices must be integers, not str

不确定我哪里出错了？

Answer 1

pool.map 需要一个 iterable 作为它提供给 function see docs 的第二个参数。

如果你遍历 DataFrame，你会得到 column 个名字——因此会有关于 string indices 的抱怨。

for i in df:
    print(i)

end_Date
latitude
longitude
start_Date

您需要将 DataFrame 分解成可以由 pool 并行处理的片段，例如通过读取 chunks 中的文件，如 I/O docs.

python 使用数据帧的并行处理错误

error in parallel processing in python using dataframe

python

parallel-processing

multiprocessing

python-2.7

pandas