在pandas中提取日期时间类型列的第一天

Question

在pandas中提取日期时间类型列的第一天

che*_*ens 24 python dataframe pandas datetime64

我有以下数据帧:

user_id    purchase_date 
  1        2015-01-23 14:05:21
  2        2015-02-05 05:07:30
  3        2015-02-18 17:08:51
  4        2015-03-21 17:07:30
  5        2015-03-11 18:32:56
  6        2015-03-03 11:02:30

Run Code Online (Sandbox Code Playgroud)

并且purchase_date是一个datetime64[ns]专栏.我需要添加一个新列df[month],其中包含购买日期的第一天:

df['month']
2015-01-01
2015-02-01
2015-02-01
2015-03-01
2015-03-01
2015-03-01

Run Code Online (Sandbox Code Playgroud)

我正在寻找像DATE_FORMAT(purchase_date, "%Y-%m-01") mSQL 一样的东西.我试过以下代码:

     df['month']=df['purchase_date'].apply(lambda x : x.replace(day=1))

Run Code Online (Sandbox Code Playgroud)

它以某种方式工作但返回:2015-01-01 14:05:21.

Answer 1

jez*_*ael 34

Simpliest和最快的是转换为numpy array通过values再投:

df['month'] = df['purchase_date'].values.astype('datetime64[M]')
print (df)
   user_id       purchase_date      month
0        1 2015-01-23 14:05:21 2015-01-01
1        2 2015-02-05 05:07:30 2015-02-01
2        3 2015-02-18 17:08:51 2015-02-01
3        4 2015-03-21 17:07:30 2015-03-01
4        5 2015-03-11 18:32:56 2015-03-01
5        6 2015-03-03 11:02:30 2015-03-01

Run Code Online (Sandbox Code Playgroud)

另一种解决方案:floor和pd.offsets.MonthBegin(0):

df['month'] = df['purchase_date'].dt.floor('d') - pd.offsets.MonthBegin(1)
print (df)
   user_id       purchase_date      month
0        1 2015-01-23 14:05:21 2015-01-01
1        2 2015-02-05 05:07:30 2015-02-01
2        3 2015-02-18 17:08:51 2015-02-01
3        4 2015-03-21 17:07:30 2015-03-01
4        5 2015-03-11 18:32:56 2015-03-01
5        6 2015-03-03 11:02:30 2015-03-01

Run Code Online (Sandbox Code Playgroud)

df['month'] = (df['purchase_date'] - pd.offsets.MonthBegin(1)).dt.floor('d')
print (df)
   user_id       purchase_date      month
0        1 2015-01-23 14:05:21 2015-01-01
1        2 2015-02-05 05:07:30 2015-02-01
2        3 2015-02-18 17:08:51 2015-02-01
3        4 2015-03-21 17:07:30 2015-03-01
4        5 2015-03-11 18:32:56 2015-03-01
5        6 2015-03-03 11:02:30 2015-03-01

Run Code Online (Sandbox Code Playgroud)

最后的解决方案是建立month period由to_period:

df['month'] = df['purchase_date'].dt.to_period('M')
print (df)
   user_id       purchase_date   month
0        1 2015-01-23 14:05:21 2015-01
1        2 2015-02-05 05:07:30 2015-02
2        3 2015-02-18 17:08:51 2015-02
3        4 2015-03-21 17:07:30 2015-03
4        5 2015-03-11 18:32:56 2015-03
5        6 2015-03-03 11:02:30 2015-03

Run Code Online (Sandbox Code Playgroud)

......然后到datetimes了to_timestamp,但它有点慢:

df['month'] = df['purchase_date'].dt.to_period('M').dt.to_timestamp()
print (df)
   user_id       purchase_date      month
0        1 2015-01-23 14:05:21 2015-01-01
1        2 2015-02-05 05:07:30 2015-02-01
2        3 2015-02-18 17:08:51 2015-02-01
3        4 2015-03-21 17:07:30 2015-03-01
4        5 2015-03-11 18:32:56 2015-03-01
5        6 2015-03-03 11:02:30 2015-03-01

Run Code Online (Sandbox Code Playgroud)

有很多解决方案,所以:

时间:

rng = pd.date_range('1980-04-03 15:41:12', periods=100000, freq='20H')
df = pd.DataFrame({'purchase_date': rng})  
print (df.head())

In [300]: %timeit df['month1'] = df['purchase_date'].values.astype('datetime64[M]')
100 loops, best of 3: 9.2 ms per loop

In [301]: %timeit df['month2'] = df['purchase_date'].dt.floor('d') - pd.offsets.MonthBegin(1)
100 loops, best of 3: 15.9 ms per loop

In [302]: %timeit df['month3'] = (df['purchase_date'] - pd.offsets.MonthBegin(1)).dt.floor('d')
100 loops, best of 3: 12.8 ms per loop

In [303]: %timeit df['month4'] = df['purchase_date'].dt.to_period('M').dt.to_timestamp()
1 loop, best of 3: 399 ms per loop

#MaxU solution
In [304]: %timeit df['month5'] = df['purchase_date'].dt.normalize() - pd.offsets.MonthBegin(1)
10 loops, best of 3: 24.9 ms per loop

#MaxU solution 2
In [305]: %timeit df['month'] = df['purchase_date'] - pd.offsets.MonthBegin(1, normalize=True)
10 loops, best of 3: 28.9 ms per loop

#Wen solution
In [306]: %timeit df['month6']= pd.to_datetime(df.purchase_date.astype(str).str[0:7]+'-01')
1 loop, best of 3: 214 ms per loop

Run Code Online (Sandbox Code Playgroud)

`pd.offsets.MonthBegin(1)`的问题是当purchase_date是该月的第一天时,您的代码将返回上个月的第一天. (4认同)
`pd.offsets.MonthBegin(0)`第一天起作用,但其余部分失败 (4认同)
我同意，当日期是该月的第一天时，该解决方案是有缺陷的。 (2认同)

Answer 2

Max*_*axU 7

我们可以将日期偏移量与Series.dt.normalize一起使用:

In [60]: df['month'] = df['purchase_date'].dt.normalize() - pd.offsets.MonthBegin(1)

In [61]: df
Out[61]:
   user_id       purchase_date      month
0        1 2015-01-23 14:05:21 2015-01-01
1        2 2015-02-05 05:07:30 2015-02-01
2        3 2015-02-18 17:08:51 2015-02-01
3        4 2015-03-21 17:07:30 2015-03-01
4        5 2015-03-11 18:32:56 2015-03-01
5        6 2015-03-03 11:02:30 2015-03-01

Run Code Online (Sandbox Code Playgroud)

或者来自@BradSolomon的更好的解决方案

In [95]: df['month'] = df['purchase_date'] - pd.offsets.MonthBegin(1, normalize=True)

In [96]: df
Out[96]:
   user_id       purchase_date      month
0        1 2015-01-23 14:05:21 2015-01-01
1        2 2015-02-05 05:07:30 2015-02-01
2        3 2015-02-18 17:08:51 2015-02-01
3        4 2015-03-21 17:07:30 2015-03-01
4        5 2015-03-11 18:32:56 2015-03-01
5        6 2015-03-03 11:02:30 2015-03-01

Run Code Online (Sandbox Code Playgroud)

或者将 `normalize` 作为参数传递，`df.purchase_date - pd.offsets.MonthBegin(1, normalize=True))`。 (2认同)
@MaxU如果`df ['purchase_date']`已经在一个月的第一天，则减去`MonthBegin（1）`将返回上个月的第一天。 (2认同)
如果purchase_date已经是该月的第一天,会发生什么？对于2017-08-01 03:45:56`我得到:`2017-07-01` (2认同)

Answer 3

WeN*_*Ben 6

尝试这个 ..

df['month']=pd.to_datetime(df.purchase_date.astype(str).str[0:7]+'-01')

Out[187]: 
   user_id        purchase_date       month
0        1  2015-01-23 14:05:21  2015-01-01
1        2  2015-02-05 05:07:30  2015-02-01
2        3  2015-02-18 17:08:51  2015-02-01
3        4  2015-03-21 17:07:30  2015-03-01
4        5  2015-03-11 18:32:56  2015-03-01
5        6  2015-03-03 11:02:30  2015-03-01

Run Code Online (Sandbox Code Playgroud)

Answer 4

kad*_*dee 6

大多数提议的解决方案在当月的第一天不起作用。

以下解决方案适用于一个月中的任何一天：

df['month'] = df['purchase_date'] + pd.offsets.MonthEnd(0) - pd.offsets.MonthBegin(normalize=True)

Run Code Online (Sandbox Code Playgroud)

[编辑]

另一个更具可读性的解决方案是：

from pandas.tseries.offsets import MonthBegin
df['month'] = df['purchase_date'].dt.normalize().map(MonthBegin().rollback)

Run Code Online (Sandbox Code Playgroud)

注意不要使用：

df['month'] = df['purchase_date'].map(MonthBegin(normalize=True).rollback)

Run Code Online (Sandbox Code Playgroud)

因为由于错误导致第一天的结果不正确：https : //github.com/pandas-dev/pandas/issues/32616

Answer 5

igo*_*rkf 6

这个简单的解决方案怎么样？
由于purchase_date已经采用datetime64[ns]格式，您可以使用strftime将日期格式化为始终为月份的第一天。

df['date'] = df['purchase_date'].apply(lambda x: x.strftime('%Y-%m-01'))

print(df)
 user_id   purchase_date       date
0   1   2015-01-23 14:05:21 2015-01-01
1   2   2015-02-05 05:07:30 2015-02-01
2   3   2015-02-18 17:08:51 2015-02-01
3   4   2015-03-21 17:07:30 2015-03-01
4   5   2015-03-11 18:32:56 2015-03-01
5   6   2015-03-03 11:02:30 2015-03-01

Run Code Online (Sandbox Code Playgroud)

因为我们使用了strftime，现在该date列是object（字符串）类型：

print(df.dtypes)
user_id                   int64
purchase_date    datetime64[ns]
date                     object
dtype: object

Run Code Online (Sandbox Code Playgroud)

现在，如果您希望它在中datetime64[ns]，只需使用pd.to_datetime()：

df['date'] = pd.to_datetime(df['date'])

print(df.dtypes)
user_id                   int64
purchase_date    datetime64[ns]
date             datetime64[ns]
dtype: object

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，5 月前
查看次数：	14459 次
最近记录：	6 年，3 月前