Python:减少精度pandas时间戳数据帧

Question

Python:减少精度pandas时间戳数据帧

ema*_*max 14 python timestamp dataframe pandas

您好我有以下数据帧

df = 

       Record_ID       Time
        94704   2014-03-10 07:19:19.647342
        94705   2014-03-10 07:21:44.479363
        94706   2014-03-10 07:21:45.479581
        94707   2014-03-10 07:21:54.481588
        94708   2014-03-10 07:21:55.481804

Run Code Online (Sandbox Code Playgroud)

有可能有以下吗？

df1 = 

       Record_ID       Time
        94704   2014-03-10 07:19:19
        94705   2014-03-10 07:21:44
        94706   2014-03-10 07:21:45
        94707   2014-03-10 07:21:54
        94708   2014-03-10 07:21:55

Run Code Online (Sandbox Code Playgroud)

Answer 1

unu*_*tbu 21

您可以使用以下方法将基础datetime64[ns]值转换为datetime64[s]值astype:

In [11]: df['Time'] = df['Time'].astype('datetime64[s]')

In [12]: df
Out[12]: 
   Record_ID                Time
0      94704 2014-03-10 07:19:19
1      94705 2014-03-10 07:21:44
2      94706 2014-03-10 07:21:45
3      94707 2014-03-10 07:21:54
4      94708 2014-03-10 07:21:55

Run Code Online (Sandbox Code Playgroud)

请注意,由于Pandas Series和DataFrames 存储所有日期时间值,因为datetime64[ns]这些datetime64[s]值会自动转换回datetime64[ns],因此最终结果仍然存储为datetime64[ns]值,但调用会astype导致秒的小数部分被删除.

如果您希望拥有NumPy datetime64[s]值数组,则可以使用df['Time'].values.astype('datetime64[s]').

我现在用 padnas '0.25.3' 得到 `TypeError: Cannot Cast DatetimeArray to dtype datetime64[s]` (3认同)
@ mnky9800n:目前,Pandas的"NDFrames"只支持`datetime64 [ns]`. (2认同)

Answer 2

Ana*_*mar 10

如果您确实必须删除microsecond日期时间的一部分,则可以使用该Timestamp.replace方法和Series.apply方法将其应用于整个系列,以替换该microsecond部分0.示例 -

df['Time'] = df['Time'].apply(lambda x: x.replace(microsecond=0))

Run Code Online (Sandbox Code Playgroud)

演示 -

In [25]: df
Out[25]:
   Record_ID                       Time
0      94704 2014-03-10 07:19:19.647342
1      94705 2014-03-10 07:21:44.479363
2      94706 2014-03-10 07:21:45.479581
3      94707 2014-03-10 07:21:54.481588
4      94708 2014-03-10 07:21:55.481804

In [26]: type(df['Time'][0])
Out[26]: pandas.tslib.Timestamp

In [27]: df['Time'] = df['Time'].apply(lambda x: x.replace(microsecond=0))

In [28]: df
Out[28]:
   Record_ID                Time
0      94704 2014-03-10 07:19:19
1      94705 2014-03-10 07:21:44
2      94706 2014-03-10 07:21:45
3      94707 2014-03-10 07:21:54
4      94708 2014-03-10 07:21:55

Run Code Online (Sandbox Code Playgroud)

Answer 3

eri*_*c R 8

对于 0.24.0 或更高版本的熊猫，您可以简单地在 ceil() 函数中设置 freq 参数以获得您想要的精确度：

df['Time'] = df.Time.dt.ceil(freq='s')  

In [28]: df
Out[28]:
   Record_ID                Time
0      94704 2014-03-10 07:19:19
1      94705 2014-03-10 07:21:44
2      94706 2014-03-10 07:21:45
3      94707 2014-03-10 07:21:54
4      94708 2014-03-10 07:21:55

Run Code Online (Sandbox Code Playgroud)

这是一个干净的解决方案。根据情况，还可以选择“圆形”和“地板”。 (2认同)

归档时间：	10 年，3 月前
查看次数：	9181 次
最近记录：	6 年，3 月前