这是一个非常笼统的问题,我正在寻求解决方案,以应对以下情况:
我经常发现自己在数据框中创建了一个额外的列,并且我想使用类似以下的内容:
df['new_col'] = df['old_col_1']+df['old_col_2']
Run Code Online (Sandbox Code Playgroud)
但是,除非操作非常简单,否则它会给出“ TypeError:无法将序列转换为[class'whatever']类”,因此我必须使用笨拙的方法。例:
df = pd.DataFrame({'Year':[2018,2017,2016,2017,2016,2018,2018],'Month':[1,1,1,2,2,2,3],
'Value':[521,352,32,125,662,123,621]})
Run Code Online (Sandbox Code Playgroud)
我想要一个“日期”列,并且最终这样做:
from datetime import datetime as dt
df['Date'] = None
for i in df.index:
df1.loc[i,'Date'] = dt(df1.loc[i,'Year'],df1.loc[i,'variable'],1)
Run Code Online (Sandbox Code Playgroud)
在其他情况下,我发现自己在做:
datelist = []
for i in df.index:
datelist.append(dt(df1.loc[i,'Year'],df1.loc[i,'variable'],1))
df['Date'] = datelist
Run Code Online (Sandbox Code Playgroud)
显然,这只是一个示例,在很多情况下,我最终都会使用这两种方法。我是否正确地认为这些方法不是pythonic的?基于其他列生成稍微复杂的列的更好方法是什么?
我认为principe df['new_col'] = df['old_col_1']+df['old_col_2']很好,因为矢量化了。
这取决于数据,如何处理。例如,这里可以将列转换为字符串并应用to_datetime:
df['Date'] = pd.to_datetime(df['Year'].astype(str) + '-' + df['Month'].astype(str),
format='%Y-%m')
print (df)
Year Month Value Date
0 2018 1 521 2018-01-01
1 2017 1 352 2017-01-01
2 2016 1 32 2016-01-01
3 2017 2 125 2017-02-01
4 2016 2 662 2016-02-01
5 2018 2 123 2018-02-01
6 2018 3 621 2018-03-01
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
45 次 |
| 最近记录: |