熊猫:智能创建新列

Jim*_*erg 1 python-3.x pandas

这是一个非常笼统的问题,我正在寻求解决方案,以应对以下情况:

我经常发现自己在数据框中创建了一个额外的列,并且我想使用类似以下的内容:

df['new_col'] = df['old_col_1']+df['old_col_2']
Run Code Online (Sandbox Code Playgroud)

但是,除非操作非常简单,否则它会给出“ TypeError:无法将序列转换为[class'whatever']类”,因此我必须使用笨拙的方法。例:

df = pd.DataFrame({'Year':[2018,2017,2016,2017,2016,2018,2018],'Month':[1,1,1,2,2,2,3],
                   'Value':[521,352,32,125,662,123,621]})
Run Code Online (Sandbox Code Playgroud)

我想要一个“日期”列,并且最终这样做:

from datetime import datetime as dt
df['Date'] = None
for i in df.index:
    df1.loc[i,'Date'] = dt(df1.loc[i,'Year'],df1.loc[i,'variable'],1)
Run Code Online (Sandbox Code Playgroud)

在其他情况下,我发现自己在做:

datelist = []
for i in df.index:
    datelist.append(dt(df1.loc[i,'Year'],df1.loc[i,'variable'],1))
df['Date'] = datelist
Run Code Online (Sandbox Code Playgroud)

显然,这只是一个示例,在很多情况下,我最终都会使用这两种方法。我是否正确地认为这些方法不是pythonic的?基于其他列生成稍微复杂的列的更好方法是什么?

jez*_*ael 5

我认为principe df['new_col'] = df['old_col_1']+df['old_col_2']很好,因为矢量化了。

这取决于数据,如何处理。例如,这里可以将列转换为字符串并应用to_datetime

df['Date'] = pd.to_datetime(df['Year'].astype(str) + '-' + df['Month'].astype(str), 
                            format='%Y-%m')
print (df)

   Year  Month  Value       Date
0  2018      1    521 2018-01-01
1  2017      1    352 2017-01-01
2  2016      1     32 2016-01-01
3  2017      2    125 2017-02-01
4  2016      2    662 2016-02-01
5  2018      2    123 2018-02-01
6  2018      3    621 2018-03-01
Run Code Online (Sandbox Code Playgroud)

各种操作执行的一般优先顺序
对于熊猫循环