更改熊猫数据框列值

Question

更改熊猫数据框列值

我有一个熊猫数据框。

keyword                     adGroup     goal6Value   adCost
aaaa                        (not set)   0            0.0
+bbbb                       (not set)   0            0.0
+cccc                       (not set)   2072         0.0
dddd                        (not set)   0            0.0

Run Code Online (Sandbox Code Playgroud)

我更改了第一列中的值，以便根据某些条件在关键字中添加括号（如果没有“ +”符号，请添加括号）。

keyword                     adGroup     goal6Value   adCost
[aaaa]                      (not set)   0            0.0
+bbbb                       (not set)   0            0.0
+cccc                       (not set)   2072         0.0
[dddd]                      (not set)   0            0.0

Run Code Online (Sandbox Code Playgroud)

这是创建添加括号的函数：

def add_bracket(df):

    df["keyword"] = df["keyword"].astype('str')
    keyword_list = list()

    for index, row in df.iterrows():
       keyword = row["keyword"]
       if keyword.find("+") < 0:
         keyword = "[" + keyword + "]"
       keyword_list.append(keyword)

    kw = pd.DataFrame(keyword_list, columns = ['Keyword2'])
    df2 = pd.concat([df, kw], axis=1).drop(columns["keyword"]).rename(columns={'Keyword2': 'keyword'})
    df2 = df2[['keyword', 'adGroup', 'goal6Value', 'adCost']]
    return df2

Run Code Online (Sandbox Code Playgroud)

该函数产生了我想要的结果，但是在熊猫中是否有一种更整洁的方法，这样我就不需要创建df2来添加列1的输出（基本上是在原地进行更改）？

解决方案： 根据@Inder的建议答案，可以用一行编写整个函数。

df["keyword"] = df.keyword.apply(lambda x: "[" + x + "]" if x.find("+") < 0 else x)

Run Code Online (Sandbox Code Playgroud)

基于@RafaelC的答案。

mask = df.keyword.str.contains('+', regex=False)
df.loc[~mask, 'keyword'] = "[" + df.loc[~mask, 'keyword'] + "]"

Run Code Online (Sandbox Code Playgroud)

Answer 1

raf*_*elc 5

只是总和

mask = df.keyword.str.contains('+', regex=False)
df.loc[~mask, 'keyword'] = "[" + df.loc[~mask, 'keyword'] + "]"

    keyword 
0   [aaaa]  
1   [bbbb]  
2   [cccc]  
3   [dddd]

Run Code Online (Sandbox Code Playgroud)

为什么比这更好apply？

看一下时间：

%timeit "[" + df.loc[mask, 'keyword'] + "]"
348 µs ± 24.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit df.keyword.apply(lambda x:[x])
112 µs ± 3.46 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Run Code Online (Sandbox Code Playgroud)

哇，所以申请速度更快？

不完全的。也许是非常小的df，但是df在行数超过100,000 的更大的设备上看一下相同的操作：

df = pd.concat([df]*100000)

%timeit "[" + df.loc[mask, 'keyword'] + "]"
4.54 ms ± 135 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit df.keyword.apply(lambda x:[x])
129 ms ± 2.74 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Run Code Online (Sandbox Code Playgroud)

因此apply变得非常非常慢非常快，但是矢量化操作不会

归档时间：	7 年，6 月前
查看次数：	2512 次
最近记录：	7 年，6 月前