如何使用 python pandas 清理多种格式的日期范围?

Pyt*_*ast 2 python dataframe pandas

我有一个数据框,其中包含一些混合格式的日期,如下所示:

import pandas as pd

dates = ['Dec-03',
         '03/11/2003 - 05/04/2004',
         'Apr-04',
         '2004 - 2005',
         '01/02/2005 - 31/03/2005']

df = pd.DataFrame(dates, columns = ["date_range"])
Run Code Online (Sandbox Code Playgroud)

如上例所示,日期可以采用三种格式:两年;一个月;两个约会在一起。

我希望找到一种有效且“pythonic”的方式在数据框中创建“开始日期”和“结束日期”列,结果如下:

    date_range                         start_dates  end_dates
0   Dec-03                             01/12/2003   31/12/2003
1   03/11/2003 - 05/04/2004            03/11/2003   05/04/2004
2   Apr-04                             01/04/2004   30/04/2004
3   2004 - 2005                        01/01/2004   31/12/2005
4   01/02/2005 - 31/03/2005            01/02/2005   31/03/2005
Run Code Online (Sandbox Code Playgroud)

我已经尝试过涉及 df.iterrows 和一些 if 语句的解决方案,但我想知道是否有更有效的方法来解决这个问题。完整的数据集包含数百万行,因此使用矢量化函数或类似的东西会很好地工作。

Roy*_*012 5

我认为没有办法在一个矢量化操作中做到这一点。但是,您可以做的是将数据帧分成几个块 - 每个块都有自己的数据范围格式。对于这些切片中的每一个,您都可以以矢量化方式计算开始日期和结束日期。由于日期格式的数量小于记录数量,因此应该相当快。

这是一个实现:

from pandas.tseries.offsets import MonthEnd, YearEnd

df["start_time"] = pd.NaT
df["end_time"] = pd.NaT

mask = df.date_range.str.match(r"\w{3}-\d{2}")
df.loc[mask, "start_time"] = pd.to_datetime(df.loc[mask, "date_range"], format = "%b-%y")
df.loc[mask, "end_time"] = df.loc[mask, "start_time"] + MonthEnd(1)

mask = df.date_range.str.match(r"\d{4}\s*-\s*\d{4}")
df.loc[mask, "start_time"] = pd.to_datetime(df.loc[mask, "date_range"].str.split("-", expand=True)[0].str.strip(), 
                                            format="%Y")
df.loc[mask, "end_time"] = pd.to_datetime(df.loc[mask, "date_range"].str.split("-", expand=True)[1].str.strip(), 
                                            format="%Y") + YearEnd(1) 


mask = df.date_range.str.match(r"\d{2}/\d{2}/\d{4} - \d{2}/\d{2}/\d{4}")

df.loc[mask, "start_time"] = pd.to_datetime(df.loc[mask, "date_range"].str.split("-", expand=True)[0].str.strip(), 
                                            format="%d/%m/%Y")

df.loc[mask, "end_time"] = pd.to_datetime(df.loc[mask, "date_range"].str.split("-", expand=True)[1].str.strip(), 
                                            format="%d/%m/%Y")
Run Code Online (Sandbox Code Playgroud)

结果是:

                date_range start_time   end_time
0                   Dec-03 2003-12-01 2003-12-31
1  03/11/2003 - 05/04/2004 2003-11-03 2004-04-05
2                   Apr-04 2004-04-01 2004-04-30
3              2004 - 2005 2004-01-01 2005-12-31
4  01/02/2005 - 31/03/2005 2005-02-01 2005-03-31
Run Code Online (Sandbox Code Playgroud)