tam*_*gal 30 python datetime pandas
我需要处理大量的CSV文件,其中时间戳始终是表示unix时间戳的字符串,以毫秒为单位.我找不到一种方法来有效地修改这些列.
这就是我提出的,但是这当然只复制了列,我必须以某种方式将它放回原始数据集.我确定在创建时可以完成DataFrame吗?
import sys
if sys.version_info[0] < 3:
from StringIO import StringIO
else:
from io import StringIO
import pandas as pd
data = 'RUN,UNIXTIME,VALUE\n1,1447160702320,10\n2,1447160702364,20\n3,1447160722364,42'
df = pd.read_csv(StringIO(data))
convert = lambda x: datetime.datetime.fromtimestamp(x / 1e3)
converted_df = df['UNIXTIME'].apply(convert)
Run Code Online (Sandbox Code Playgroud)
这将选择"UNIXTIME"列并从中进行更改
0 1447160702320
1 1447160702364
2 1447160722364
Name: UNIXTIME, dtype: int64
Run Code Online (Sandbox Code Playgroud)
进入这个
0 2015-11-10 14:05:02.320
1 2015-11-10 14:05:02.364
2 2015-11-10 14:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]
Run Code Online (Sandbox Code Playgroud)
但是,我想使用类似的方法pd.apply()来获取使用转换列返回的整个数据集,或者正如我已经写过的那样,只需在从CSV生成DataFrame时创建日期时间.
EdC*_*ica 38
您可以使用to_datetime并传递arg 作为后处理步骤执行此操作unit='ms':
In [5]:
df['UNIXTIME'] = pd.to_datetime(df['UNIXTIME'], unit='ms')
df
Out[5]:
RUN UNIXTIME VALUE
0 1 2015-11-10 13:05:02.320 10
1 2 2015-11-10 13:05:02.364 20
2 3 2015-11-10 13:05:22.364 42
Run Code Online (Sandbox Code Playgroud)
我使用@EdChum解决方案,但我添加了时区管理:
df['UNIXTIME']=pd.DatetimeIndex(pd.to_datetime(pd['UNIXTIME'], unit='ms'))\
.tz_localize('UTC' )\
.tz_convert('America/New_York')
Run Code Online (Sandbox Code Playgroud)
在tz_localize表示时间戳应被视为关于"UTC",那么tz_convert实际移动的日期/时间为正确的时区(在这种情况下`美国/纽约").
请注意,它已转换为a,DatetimeIndex因为这些tz_方法仅适用于系列的索引.由于Pandas 0.15可以使用.dt:
df['UNIXTIME']=pd.to_datetime(pd['UNIXTIME'], unit='ms')\
.dt.tz_localize('UTC' )\
.dt.tz_convert('America/New_York')
Run Code Online (Sandbox Code Playgroud)