将大型数据帧拆分为较小的pandas数据帧列表

use*_*827 2 python pandas

我有一个如下所示的数据框:

    y  gdp  cap
0   1    2    5
1   2    3    9
2   8    7    2
3   3    4    7
4   6    7    7
Run Code Online (Sandbox Code Playgroud)

有没有办法我可以把它分成一个pandas数据帧列表,每个数据帧有1行和相同的标题,这个数据帧大?我可以循环它,但是有更多的pythonic soln吗?

用例是:

with Pool(processes=5) as p:
    p.starmap(parallel_func, list(single_row_of_dataframe))
Run Code Online (Sandbox Code Playgroud)

cs9*_*s95 5

选项1
np.split

for i in np.arange(1, len(df))):
     print(i, '\n')

   y  gdp  cap
0  1    2    5 

   y  gdp  cap
1  2    3    9 

   y  gdp  cap
2  8    7    2 

   y  gdp  cap
3  3    4    7 

   y  gdp  cap
4  6    7    7 
Run Code Online (Sandbox Code Playgroud)

如果您的索引是单调的,则可以使用它来分割:

for i in np.split(df, df.index[1:]):
    print(i, '\n')
Run Code Online (Sandbox Code Playgroud)

请注意np.split,从本质上讲,它是一个循环实现,因此您并没有真正逃避迭代.


splits = np.split(df, df.index[1:])
Run Code Online (Sandbox Code Playgroud)

选项2 循环df.index和调用loc:

splits = [df.loc[[i]] for i in df.index]
Run Code Online (Sandbox Code Playgroud)

在这里的评论中充实讨论 - 如果您正在寻求某种并行化,请查看dask数据帧.不要试图实现自己的并行化Pool,实际上你会遇到性能下降.