将 pandas 数据框字符串拆分为单独的行

Question

将 pandas 数据框字符串拆分为单独的行

Chi*_*_da 2 python numpy dataframe pandas

我有一个文本字符串数据框，它本质上代表每行一个或多个旅程。我试图将旅程的各个部分分开，这样我就可以单独看到它们。示例输入数据框如下所示：

更新：

df_input = pd.DataFrame([{'var1':'A/A1', 'var2':'x/y/z', 'var3':'abc1'}, 
                         {'var1':'B', 'var2':'xx/yy', 'var3':'abc2'}, 
                         {'var1':'c', 'var2':'zz', 'var3':'abcd'}])

   var1 var2    var3
0  A/A1 x/y/z   abc1
1   B   xx/yy   abc2
2   c   zz      abcd

Run Code Online (Sandbox Code Playgroud)

我试图获得的输出应如下所示。因此，对于第一个示例，旅程长度为A to A1 then A1 to x then x to y and then y to z。如果还有一种方法可以添加一个额外的列来指示旅程航段编号（1、2、3 等），那将非常有帮助。var3在这里并不重要，但我只是将其包括在内以表明当行拆分时还有其他列会重复。

df_output = pd.DataFrame([{'var1': 'A', 'var2': 'A1', 'var3':'abc1'}, 
                          {'var1': 'A1', 'var2': 'x', 'var3':'abc1'},
                          {'var1': 'x', 'var2': 'y', 'var3':'abc1'},
                          {'var1': 'y', 'var2': 'z', 'var3':'abc1'},
                          {'var1': 'B', 'var2': 'xx', 'var3':'abc2'},
                          {'var1': 'xx', 'var2': 'yy', 'var3':'abc2'},
                          {'var1': 'c', 'var2': 'zz', 'var3':'abcd'}])

  var1 var2 var3
0   A   A1  abc1
1   A1  x   abc1
2   x   y   abc1
3   y   z   abc1
4   B   xx  abc2
5   xx  yy  abc2
6   c   zz  abcd

Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗？

谢谢

Answer 1

WeN*_*Ben 5

尝试用explode

df=df_input.assign(var2=df_input.var2.str.split('/')).explode('var2')
  var1 var2  var3
0    A    x  abc1
0    A    y  abc1
0    A    z  abc1
1    B   xx  abc2
1    B   yy  abc2
2    c   zz  abcd

Run Code Online (Sandbox Code Playgroud)

然后groupby+shift

df.var1=df.groupby(level=0).var2.shift().fillna(df.var1)
df
  var1 var2  var3
0    A    x  abc1
0    x    y  abc1
0    y    z  abc1
1    B   xx  abc2
1   xx   yy  abc2
2    c   zz  abcd

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，8 月前
查看次数：	492 次
最近记录：	5 年，8 月前