我有一个熊猫数据框。
keyword adGroup goal6Value adCost
aaaa (not set) 0 0.0
+bbbb (not set) 0 0.0
+cccc (not set) 2072 0.0
dddd (not set) 0 0.0
Run Code Online (Sandbox Code Playgroud)
我更改了第一列中的值,以便根据某些条件在关键字中添加括号(如果没有“ +”符号,请添加括号)。
keyword adGroup goal6Value adCost
[aaaa] (not set) 0 0.0
+bbbb (not set) 0 0.0
+cccc (not set) 2072 0.0
[dddd] (not set) 0 0.0
Run Code Online (Sandbox Code Playgroud)
这是创建添加括号的函数:
def add_bracket(df):
df["keyword"] = df["keyword"].astype('str')
keyword_list = list()
for index, row in df.iterrows():
keyword = row["keyword"]
if keyword.find("+") < 0:
keyword = "[" + keyword + "]"
keyword_list.append(keyword)
kw = pd.DataFrame(keyword_list, columns = ['Keyword2'])
df2 = pd.concat([df, kw], axis=1).drop(columns["keyword"]).rename(columns={'Keyword2': 'keyword'})
df2 = df2[['keyword', 'adGroup', 'goal6Value', 'adCost']]
return df2
Run Code Online (Sandbox Code Playgroud)
该函数产生了我想要的结果,但是在熊猫中是否有一种更整洁的方法,这样我就不需要创建df2来添加列1的输出(基本上是在原地进行更改)?
解决方案: 根据@Inder的建议答案,可以用一行编写整个函数。
df["keyword"] = df.keyword.apply(lambda x: "[" + x + "]" if x.find("+") < 0 else x)
Run Code Online (Sandbox Code Playgroud)
基于@RafaelC的答案。
mask = df.keyword.str.contains('+', regex=False)
df.loc[~mask, 'keyword'] = "[" + df.loc[~mask, 'keyword'] + "]"
Run Code Online (Sandbox Code Playgroud)
只是总和
mask = df.keyword.str.contains('+', regex=False)
df.loc[~mask, 'keyword'] = "[" + df.loc[~mask, 'keyword'] + "]"
keyword
0 [aaaa]
1 [bbbb]
2 [cccc]
3 [dddd]
Run Code Online (Sandbox Code Playgroud)
为什么比这更好apply?
看一下时间:
%timeit "[" + df.loc[mask, 'keyword'] + "]"
348 µs ± 24.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
%timeit df.keyword.apply(lambda x:[x])
112 µs ± 3.46 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
Run Code Online (Sandbox Code Playgroud)
哇,所以申请速度更快?
不完全的。也许是非常小的df,但是df在行数超过100,000 的更大的设备上看一下相同的操作:
df = pd.concat([df]*100000)
%timeit "[" + df.loc[mask, 'keyword'] + "]"
4.54 ms ± 135 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit df.keyword.apply(lambda x:[x])
129 ms ± 2.74 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
Run Code Online (Sandbox Code Playgroud)
因此apply变得非常非常慢非常快,但是矢量化操作不会
| 归档时间: |
|
| 查看次数: |
2512 次 |
| 最近记录: |