Pandas通过列将CSV拆分为多个CSV(或DataFrame)

Question

Pandas通过列将CSV拆分为多个CSV(或DataFrame)

Eli*_*elo 4 python csv python-2.7 pandas pandas-groupby

我很遗憾有一个问题,一些帮助或提示将不胜感激.

问题:我有一个csv文件,其列可能有多个值,如:

Fruit;Color;The_evil_column
Apple;Red;something1
Apple;Green;something1
Orange;Orange;something1
Orange;Green;something2
Apple;Red;something2
Apple;Red;something3

Run Code Online (Sandbox Code Playgroud)

我已将数据加载到数据帧中,我需要根据"The_evil_column"列的值将该数据帧拆分为多个数据帧:

df1
Fruit;Color;The_evil_column
Apple;Red;something1
Apple;Green;something1
Orange;Orange;something1

df2
Fruit;Color;The_evil_column
Orange;Green;something2
Apple;Red;something2

df3
Fruit;Color;The_evil_column
Apple;Red;something3

Run Code Online (Sandbox Code Playgroud)

阅读一些帖子后我更加困惑,我需要一些关于此的提示.

Answer 1

Max*_*axU 6

您可以生成DataFrames的字典:

d = {g:x for g,x in df.groupby('The_evil_column')}

In [95]: d.keys()
Out[95]: dict_keys(['something1', 'something2', 'something3'])

In [96]: d['something1']
Out[96]:
    Fruit   Color The_evil_column
0   Apple     Red      something1
1   Apple   Green      something1
2  Orange  Orange      something1

Run Code Online (Sandbox Code Playgroud)

或DataFrames列表:

In [103]: l = [x for _,x in df.groupby('The_evil_column')]

In [104]: l[0]
Out[104]:
    Fruit   Color The_evil_column
0   Apple     Red      something1
1   Apple   Green      something1
2  Orange  Orange      something1

In [105]: l[1]
Out[105]:
    Fruit  Color The_evil_column
3  Orange  Green      something2
4   Apple    Red      something2

In [106]: l[2]
Out[106]:
   Fruit Color The_evil_column
5  Apple   Red      something3

Run Code Online (Sandbox Code Playgroud)

更新:

In [111]: g = pd.read_csv(filename, sep=';').groupby('The_evil_column')

In [112]: g.ngroups   # number of unique values in the `The_evil_column` column
Out[112]: 3

In [113]: g.apply(lambda x: x.to_csv(r'c:\temp\{}.csv'.format(x.name)))
Out[113]:
Empty DataFrame
Columns: []
Index: []

Run Code Online (Sandbox Code Playgroud)

将产生3个文件:

In [115]: glob.glob(r'c:\temp\something*.csv')
Out[115]:
['c:\\temp\\something1.csv',
 'c:\\temp\\something2.csv',
 'c:\\temp\\something3.csv']

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，6 月前
查看次数：	4402 次
最近记录：	8 年，6 月前