读取 Excel 错误地解析欧洲日期（Python 3.4.3 || Pandas 0.17.0）

Question

读取 Excel 错误地解析欧洲日期（Python 3.4.3 || Pandas 0.17.0）

AWd*_*per 5 python excel date pandas python-3.4

在以下问题中，似乎还没有答案。

在欧洲机器上，Pandas 在解析来自欧洲格式 (dd-mm-yyyy) 的 Excelsheet 的日期时有一个令人困惑的错误。日期编号为 1-12 的日期将自动转换为美国标准 (mm-dd-yyyy)，而日期编号 > 12 的日期以欧洲方式解析 (dd-mm-yyyy)。这显然会导致问题。

10-05-2011 => 05-10-2011
05-10-2011 => 10-05-2011
31-05-2011 => 31-05-2011
14-12-2011 => 14-12-2011

如果 'day' 和 'month' 都 < 13，总有一个解决方案可以对日期进行后期处理并切换它们，但这似乎不是它假设的工作方式。有没有人找到更好的解决方案？提前致谢！

python: '3.4.3 |Anaconda 2.1.0 (x86_64)| （默认，2015 年 10 月 20 日，14:27:51）\n[GCC 4.2.1（Apple Inc. build 5577）]

熊猫：'0.17.0'

编辑 2015 年 11 月 17 日

自己找到了解决方法/解决方案：包括dayfirst=True和to_datetime()

对我来说，这似乎仍然是一个错误。我添加了我的代码的简化版本以提供更多上下文。该脚本读取包含个人数据的 Excel 表格并进行转换以创建可用于服务器上传的新表格。输入可能会有很大差异，但我简化了示例。

在代码中添加了我的解决方案，让它产生 2 个日期输出：一个有一个没有dayfirst=True

在两个不同的 Excel 工作表上运行代码。一个完全没有问题（xlsx 文件，示例 2），另一个（xls，示例 1）在列之间存在差异。似乎熊猫正确识别日和月，但难以从日期创建字符串并在 ipython 输出中自动混淆顺序。

示例 1 的输入列表

xls 文件的最终列表，请参阅名称 4 的问题

示例 2 的输入列表

xlsx 文件的最终列表，名称 3 没问题

# Module for test list

path = "xxxx"
namefile = "testlist 1.xls"
#namefile = "testlist 2.xlsx"
schoolnaam = 'schoolname'
BRIN = 'XXXX'
meetperiode = 'MPX'
meetjaar = '20xx/20xx'

os.chdir(path)

df = pd.DataFrame()
df = pd.read_excel(namefile,0, header = None, parse_dates = True)

df1 = pd.DataFrame()
df1 = df

df1.columns = ['Leerlingnummer', 'Achternaam', 'Geslacht', 'Blank', 'Leerjaar', 'Gebdatum']
df1 = df1[['Leerlingnummer', 'Achternaam', 'Geslacht', 'Gebdatum']]

# Sheet Leerling

df1.loc[df1['Leerlingnummer'].str.contains('Groep|/|A|B|C|D|E|F|G|H|I|J', na=False), 'Naam groep'] = df1.Leerlingnummer
df1['Naam groep'] = df1['Naam groep'].ffill()

df1.dropna(thresh=5, inplace = True)


df1['Achternaam'] = df1['Achternaam'].str.strip()
df1['Geslacht'] = df1['Geslacht'].str.strip().str.upper()
df1['Naam groep'] = df1['Naam groep'].str.strip()
df1['Voornaam'] = np.nan
df1['Tussenvoegsel'] = np.nan
df1['Geboortedatum']= pd.to_datetime(df1.Gebdatum).apply(lambda x: x.strftime('%d-%m-%Y'))
df1['Geboortedatum2']= pd.to_datetime(df1.Gebdatum, dayfirst=True).apply(lambda x: x.strftime('%d-%m-%Y'))

dfLeerling = df1[['Achternaam','Voornaam','Tussenvoegsel','Geslacht','Geboortedatum','Geboortedatum2','Naam groep']]


# Sheet Groep

gb = df1.groupby('Naam groep')
klaslijst = list(gb.groups)
klaslijst.sort()

dfGroep = pd.DataFrame(data = klaslijst, columns=['Naam groep'])
dfGroep['Lesjaar'] = meetjaar
dfGroep['Naam leraar'] = np.nan
dfGroep['Opmerkingen'] = np.nan

# Sheet School

dfSchool = pd.DataFrame({'BRIN': BRIN, 'Naam school': schoolnaam, 'Adres':[np.nan], 'Postcode':[np.nan], 'Plaats':[np.nan],
                       'Telefoon':[np.nan], 'Email':[np.nan], 'Website':[np.nan]})
dfSchool = dfSchool[['BRIN','Naam school','Adres','Postcode','Plaats','Telefoon','Email','Website']]

# Writer

namefile2 = 'Final list %s %s.xlsx' % (schoolnaam, meetperiode)

writer = pd.ExcelWriter(namefile2)
dfSchool.to_excel(writer, 'School', index=False)
dfGroep.to_excel(writer, 'Groep', index=False)
dfLeerling.to_excel(writer, 'Leerling', index=False)
writer.save()

dfLeerling.head()

Run Code Online (Sandbox Code Playgroud)

Answer 1

小智 1

发生这种情况时，我创建的数据框已经强制日期列的类型为 str，因此它不会得到任何解释

dtype={'x':'str','y':'str'}

Run Code Online (Sandbox Code Playgroud)

之后，您可以使用 to_datetime() 方法指出您想要的格式

format='%d/%m/%Y'

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，2 月前
查看次数：	1187 次
最近记录：	10 年，2 月前