使用Pandas处理包含日期,数字,类别等的一些基于时间序列的数据.
我遇到的问题是让pandas从CSV创建的DataFrame中正确处理我的日期/时间列.我的数据中有18个日期列,它们不是连续的,原始CSV中的未知值的字符串值为"未知".有些列的ALL单元格中包含有效的日期时间,并正确地通过pandas read_csv方法猜测它们的dtype.但是有些列在特定数据样本中将所有单元格设置为"未知",并将这些列作为对象输入.
我加载CSV的代码如下:
self.datecols = ['Claim Date', 'Lock Date', 'Closed Date', 'Service Date', 'Latest_Submission', 'Statement Date 1', 'Statement Date 2', 'Statement Date 3', 'Patient Payment Date 1', 'Patient Payment Date 2', 'Patient Payment Date 3', 'Primary 1 Payment Date', 'Primary 2 Payment Date', 'Primary 3 Payment Date', 'Secondary 1 Payment Date', 'Secondary 2 Payment Date', 'Tertiary Payment Date']
self.csvbear = pd.read_csv(file_path, index_col="Claim ID", parse_dates=True, na_values=['Unknown'])
self.csvbear = pd.DataFrame.convert_objects(self.csvbear, convert_dates='coerce')
print self.csvbear.dtypes
print self.csvbear['Tertiary Payment Date'].values
Run Code Online (Sandbox Code Playgroud)
打印self.csvbear.dtypes的输出
Prac object
Doctor …Run Code Online (Sandbox Code Playgroud)