在熊猫中将一列拆分为 3 列

Question

在熊猫中将一列拆分为 3 列

Ami*_*har 5 string split multiple-columns dataframe pandas

我有一个名为的列Names，看起来像这样，我需要将它与不同的熊猫数据框中的其他列进行比较，该数据帧具有姓氏和名字，但不是像这样的首字母。我正在尝试将首字母从新列中的列中分离出来，使用空格作为分隔符，但可能需要对整个字符串执行此操作。我试过这个：

transpose_enron['lastname'], transpose_enron['firstname'], transpose_enron['middle initial'] = zip(*transpose_enron['Names'].apply(lambda x: x.split(' ', 1)))

Run Code Online (Sandbox Code Playgroud)

它给了我这个错误

“ValueError：需要超过 1 个值才能解包”

0                    ALLEN PHILLIP K
1                      BADUM JAMES P
2                 BANNANTINE JAMES M
8                      BELFER ROBERT

Run Code Online (Sandbox Code Playgroud)

关于如何做到这一点的任何想法。

Answer 1

EdC*_*ica 7

使用矢量化str.splitwith expand=True，这会将列表解压缩到新列中：

In [17]:
df[['lastname', 'firstname', 'middle initial']] = df['name'].str.split(expand=True)
df

Out[17]:
                     name    lastname firstname middle initial
index                                                         
0         ALLEN PHILLIP K       ALLEN   PHILLIP              K
1           BADUM JAMES P       BADUM     JAMES              P
2      BANNANTINE JAMES M  BANNANTINE     JAMES              M
8           BELFER ROBERT      BELFER    ROBERT           None

Run Code Online (Sandbox Code Playgroud)

Answer 2

jez*_*ael 6

您可以使用DataFrame构造函数，如果需要删除原始列drop：

print df
                Names
0     ALLEN PHILLIP K
1       BADUM JAMES P
2  BANNANTINE JAMES M
3       BELFER ROBERT

df[['lastname', 'firstname', 'middle initial']] = pd.DataFrame([ x.split() for x in df['Names'].tolist() ])

#if you want delete original column
df = df.drop('Names', axis=1)
print df
     lastname firstname middle initial
0       ALLEN   PHILLIP              K
1       BADUM     JAMES              P
2  BANNANTINE     JAMES              M
3      BELFER    ROBERT           None

Run Code Online (Sandbox Code Playgroud)

时间： len(df) = 10000*4

df =  pd.concat([df]*10000).reset_index(drop=True)   

print df.head()

def jez(df):
    df[['lastname', 'firstname', 'middle initial']] = pd.DataFrame([ x.split() for x in df['Names'].tolist() ])
    return df

def edc(df):
    df[['lastname', 'firstname', 'middle initial']] = df['Names'].str.split(expand=True)
    return df

print jez(df).head()
print edc(df).head()

Run Code Online (Sandbox Code Playgroud)

Edchum如果数据帧较大，我的解决方案最快：

In [51]: %timeit jez(df)
10 loops, best of 3: 30.1 ms per loop

In [52]: %timeit edc(df)
10 loops, best of 3: 78 ms per loop

Run Code Online (Sandbox Code Playgroud)

通过评论错误编辑：

问题在于数据，它包含 3 个分隔符而不是 2 个，因此您需要将它们拆分为四列，然后删除临时列tmp：

print df
                Names
0     ALLEN PHILLIP K
1  BADUM JAMES P tttt
2  BANNANTINE JAMES M

df[['lastname', 'firstname', 'middle initial', 'tmp']] = pd.DataFrame([ x.split() for x in df['Names'].tolist() ])
print df
                Names    lastname firstname middle initial   tmp
0     ALLEN PHILLIP K       ALLEN   PHILLIP              K  None
1  BADUM JAMES P tttt       BADUM     JAMES              P  tttt
2  BANNANTINE JAMES M  BANNANTINE     JAMES              M  None

#if you want delete original column
df = df.drop(['Names', 'tmp'], axis=1)
print df
     lastname firstname middle initial
0       ALLEN   PHILLIP              K
1       BADUM     JAMES              P
2  BANNANTINE     JAMES              M

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，1 月前
查看次数：	5418 次
最近记录：	10 年，1 月前