我有多个pandas数据帧可能有不同的列数,这些列的数量通常从50到100不等.我需要创建一个最终列,它只是连接的所有列.基本上,列的第一行中的字符串应该是所有列的第一行上的字符串的总和(串联).我在下面写了循环,但我觉得可能有更好的方法来做到这一点.关于如何做到这一点的任何想法
num_columns = df.columns.shape[0]
col_names = df.columns.values.tolist()
df.loc[:, 'merged'] = ""
for each_col_ind in range(num_columns):
print('Concatenating', col_names[each_col_ind])
df.loc[:, 'merged'] = df.loc[:, 'merged'] + df[col_names[each_col_ind]]
Run Code Online (Sandbox Code Playgroud)
jez*_*ael 16
解决方案sum,但输出是float,所以转换为int并且str是必要的:
df['new'] = df.sum(axis=1).astype(int).astype(str)
Run Code Online (Sandbox Code Playgroud)
另一个有apply功能的解决方案join,但它最慢:
df['new'] = df.apply(''.join, axis=1)
Run Code Online (Sandbox Code Playgroud)
最后非常快numpy solution- 转换为numpy array然后'sum':
df['new'] = df.values.sum(axis=1)
Run Code Online (Sandbox Code Playgroud)
时间:
df = pd.DataFrame({'A': ['1', '2', '3'], 'B': ['4', '5', '6'], 'C': ['7', '8', '9']})
#[30000 rows x 3 columns]
df = pd.concat([df]*10000).reset_index(drop=True)
#print (df)
cols = list('ABC')
#not_a_robot solution
In [259]: %timeit df['concat'] = pd.Series(df[cols].fillna('').values.tolist()).str.join('')
100 loops, best of 3: 17.4 ms per loop
In [260]: %timeit df['new'] = df[cols].astype(str).apply(''.join, axis=1)
1 loop, best of 3: 386 ms per loop
In [261]: %timeit df['new1'] = df[cols].values.sum(axis=1)
100 loops, best of 3: 6.5 ms per loop
In [262]: %timeit df['new2'] = df[cols].astype(str).sum(axis=1).astype(int).astype(str)
10 loops, best of 3: 68.6 ms per loop
Run Code Online (Sandbox Code Playgroud)
编辑如果某些列的dtypes没有object(显然是strings)由DataFrame.astype:
df['new'] = df.astype(str).values.sum(axis=1)
Run Code Online (Sandbox Code Playgroud)
bla*_*ite 15
df = pd.DataFrame({'A': ['1', '2', '3'], 'B': ['4', '5', '6'], 'C': ['7', '8', '9']})
df['concat'] = pd.Series(df.fillna('').values.tolist()).str.join('')
Run Code Online (Sandbox Code Playgroud)
给我们:
df
Out[6]:
A B C concat
0 1 4 7 147
1 2 5 8 258
2 3 6 9 369
Run Code Online (Sandbox Code Playgroud)
要选择一组给定的列:
df['concat'] = pd.Series(df[['A', 'B']].fillna('').values.tolist()).str.join('')
df
Out[8]:
A B C concat
0 1 4 7 14
1 2 5 8 25
2 3 6 9 36
Run Code Online (Sandbox Code Playgroud)
但是,我注意到这种方法有时可能会导致NaNs被填充到不应该的位置,所以这是另一种方式:
>>> from functools import reduce
>>> df['concat'] = df[cols].apply(lambda x: reduce(lambda a, b: a + b, x), axis=1)
>>> df
A B C concat
0 1 4 7 147
1 2 5 8 258
2 3 6 9 369
Run Code Online (Sandbox Code Playgroud)
虽然应该注意这种方法要慢得多:
$ python3 -m timeit 'import pandas as pd;from functools import reduce; df=pd.DataFrame({"a": ["this", "is", "a", "string"] * 5000, "b": ["this", "is", "a", "string"] * 5000});[df[["a", "b"]].apply(lambda x: reduce(lambda a, b: a + b, x)) for _ in range(10)]'
10 loops, best of 3: 451 msec per loop
Run Code Online (Sandbox Code Playgroud)
与
$ python3 -m timeit 'import pandas as pd;from functools import reduce; df=pd.DataFrame({"a": ["this", "is", "a", "string"] * 5000, "b": ["this", "is", "a", "string"] * 5000});[pd.Series(df[["a", "b"]].fillna("").values.tolist()).str.join(" ") for _ in range(10)]'
10 loops, best of 3: 98.5 msec per loop
Run Code Online (Sandbox Code Playgroud)
我没有足够的声誉来发表评论,所以我正在根据blacksite的答复建立我的答案。
为了清楚起见,LunchBox评论说它在Python 3.7.0中失败。它对我来说在Python 3.6.3上也失败了。这是blacksite的原始答案:
df['concat'] = pd.Series(df.fillna('').values.tolist()).str.join('')
Run Code Online (Sandbox Code Playgroud)
这是我对Python 3.6.3的修改:
df['concat'] = pd.Series(df.fillna('').values.tolist()).map(lambda x: ''.join(map(str,x)))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
20635 次 |
| 最近记录: |