Python:减少精度pandas时间戳数据帧

ema*_*max 14 python timestamp dataframe pandas

您好我有以下数据帧

df = 

       Record_ID       Time
        94704   2014-03-10 07:19:19.647342
        94705   2014-03-10 07:21:44.479363
        94706   2014-03-10 07:21:45.479581
        94707   2014-03-10 07:21:54.481588
        94708   2014-03-10 07:21:55.481804
Run Code Online (Sandbox Code Playgroud)

有可能有以下吗?

df1 = 

       Record_ID       Time
        94704   2014-03-10 07:19:19
        94705   2014-03-10 07:21:44
        94706   2014-03-10 07:21:45
        94707   2014-03-10 07:21:54
        94708   2014-03-10 07:21:55
Run Code Online (Sandbox Code Playgroud)

unu*_*tbu 21

您可以使用以下方法将基础datetime64[ns]值转换为datetime64[s]astype:

In [11]: df['Time'] = df['Time'].astype('datetime64[s]')

In [12]: df
Out[12]: 
   Record_ID                Time
0      94704 2014-03-10 07:19:19
1      94705 2014-03-10 07:21:44
2      94706 2014-03-10 07:21:45
3      94707 2014-03-10 07:21:54
4      94708 2014-03-10 07:21:55
Run Code Online (Sandbox Code Playgroud)

请注意,由于Pandas Series和DataFrames 存储所有日期时间值,因为datetime64[ns]这些datetime64[s]值会自动转换回datetime64[ns],因此最终结果仍然存储为datetime64[ns]值,但调用会astype导致秒的小数部分被删除.

如果您希望拥有NumPy datetime64[s]值数组,则可以使用df['Time'].values.astype('datetime64[s]').

  • 我现在用 padnas '0.25.3' 得到 `TypeError: Cannot Cast DatetimeArray to dtype datetime64[s]` (3认同)
  • @ mnky9800n:目前,Pandas的"NDFrames"只支持`datetime64 [ns]`. (2认同)

Ana*_*mar 10

如果您确实必须删除microsecond日期时间的一部分,则可以使用该Timestamp.replace方法和Series.apply方法将其应用于整个系列,以替换该microsecond部分0.示例 -

df['Time'] = df['Time'].apply(lambda x: x.replace(microsecond=0))
Run Code Online (Sandbox Code Playgroud)

演示 -

In [25]: df
Out[25]:
   Record_ID                       Time
0      94704 2014-03-10 07:19:19.647342
1      94705 2014-03-10 07:21:44.479363
2      94706 2014-03-10 07:21:45.479581
3      94707 2014-03-10 07:21:54.481588
4      94708 2014-03-10 07:21:55.481804

In [26]: type(df['Time'][0])
Out[26]: pandas.tslib.Timestamp

In [27]: df['Time'] = df['Time'].apply(lambda x: x.replace(microsecond=0))

In [28]: df
Out[28]:
   Record_ID                Time
0      94704 2014-03-10 07:19:19
1      94705 2014-03-10 07:21:44
2      94706 2014-03-10 07:21:45
3      94707 2014-03-10 07:21:54
4      94708 2014-03-10 07:21:55
Run Code Online (Sandbox Code Playgroud)


eri*_*c R 8

对于 0.24.0 或更高版本的熊猫,您可以简单地在 ceil() 函数中设置 freq 参数以获得您想要的精确度:

df['Time'] = df.Time.dt.ceil(freq='s')  

In [28]: df
Out[28]:
   Record_ID                Time
0      94704 2014-03-10 07:19:19
1      94705 2014-03-10 07:21:44
2      94706 2014-03-10 07:21:45
3      94707 2014-03-10 07:21:54
4      94708 2014-03-10 07:21:55
Run Code Online (Sandbox Code Playgroud)

  • 这是一个干净的解决方案。根据情况,还可以选择“圆形”和“地板”。 (2认同)