use*_*044 8 python list dataframe python-2.7 pandas
我有一个非常简单的Pandas dataframe地方,每个单元格包含一个列表.我想将列表中的每个元素拆分为它自己的列.我可以通过导出值然后创建新值来实现dataframe.这似乎不是一个好方法,特别是如果我dataframe在列表列之外有一个列.
import pandas as pd
df = pd.DataFrame(data=[[[8,10,12]],
[[7,9,11]]])
df = pd.DataFrame(data=[x[0] for x in df.values])
Run Code Online (Sandbox Code Playgroud)
期望的输出:
0 1 2
0 8 10 12
1 7 9 11
Run Code Online (Sandbox Code Playgroud)
基于@Psidom回复的后续行动:
如果我确实有第二列:
df = pd.DataFrame(data=[[[8,10,12], 'A'],
[[7,9,11], 'B']])
Run Code Online (Sandbox Code Playgroud)
我怎么不松开其他栏?
期望的输出:
0 1 2 3
0 8 10 12 A
1 7 9 11 B
Run Code Online (Sandbox Code Playgroud)
Zer*_*ero 16
你可以做pd.DataFrame(df[col].values.tolist())- 快得多~500x
In [820]: pd.DataFrame(df[0].values.tolist())
Out[820]:
0 1 2
0 8 10 12
1 7 9 11
In [821]: pd.concat([pd.DataFrame(df[0].values.tolist()), df[1]], axis=1)
Out[821]:
0 1 2 1
0 8 10 12 A
1 7 9 11 B
Run Code Online (Sandbox Code Playgroud)
时间安排
中等的
In [828]: df.shape
Out[828]: (20000, 2)
In [829]: %timeit pd.DataFrame(df[0].values.tolist())
100 loops, best of 3: 15 ms per loop
In [830]: %timeit df[0].apply(pd.Series)
1 loop, best of 3: 4.06 s per loop
Run Code Online (Sandbox Code Playgroud)
大的
In [832]: df.shape
Out[832]: (200000, 2)
In [833]: %timeit pd.DataFrame(df[0].values.tolist())
10 loops, best of 3: 161 ms per loop
In [834]: %timeit df[0].apply(pd.Series)
1 loop, best of 3: 40.9 s per loop
Run Code Online (Sandbox Code Playgroud)
您可以使用apply()函数循环遍历Series 并将每个列表转换为a Series,这会自动将列表展开为列方向上的一系列:
df[0].apply(pd.Series)
# 0 1 2
#0 8 10 12
#1 7 9 11
Run Code Online (Sandbox Code Playgroud)
更新:要保留数据框的其他列,可以将结果与要保留的列连接起来:
pd.concat([df[0].apply(pd.Series), df[1]], axis = 1)
# 0 1 2 1
#0 8 10 12 A
#1 7 9 11 B
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
9628 次 |
| 最近记录: |