aha*_*bos 7 python regex date matching
我知道有类似的问题已经得到了解答,但在阅读完之后我仍然没有找到我正在寻找的解决方案.
使用Python 3.2.2,我需要将"月,日,年"与月份作为字符串匹配,2月份的两位数不超过30,31或28,闰年则为2月29.(基本上是一个真实且有效的日期)
这是我到目前为止:
pattern = "(January|February|March|April|May|June|July|August|September|October|November|December)[,][ ](0[1-9]|[12][0-9]|3[01])[,][ ]((19|20)[0-9][0-9])"
expression = re.compile(pattern)
matches = expression.findall(sampleTextFile)
Run Code Online (Sandbox Code Playgroud)
我仍然不太熟悉正则表达式语法所以我可能在那里有不必要的字符([,] []用于逗号和空格感觉就像是错误的方式去做),但当我尝试匹配时" 1991年1月26日"在我的示例文本文件中,打印出"匹配"中的项目是('1月','26','1991','19').
为什么额外的'19'出现在最后?
另外,我可以在我的正则表达式中添加或更改哪些内容可以让我正确地验证日期?我现在的计划是接受几乎所有的日期,然后通过比较日期分组与月份和年份分组来检查日期是否应<31,30,29,28.
任何帮助将非常感激,包括对我如何设计我的正则表达式的建设性批评.
这是制作正则表达式的一种方法,该表达式将匹配您所需格式的任何日期(尽管您可以明显地调整逗号是否是可选的,添加月份缩写等等):
years = r'((?:19|20)\d\d)'
pattern = r'(%%s) +(%%s), *%s' % years
thirties = pattern % (
"September|April|June|November",
r'0?[1-9]|[12]\d|30')
thirtyones = pattern % (
"January|March|May|July|August|October|December",
r'0?[1-9]|[12]\d|3[01]')
fours = '(?:%s)' % '|'.join('%02d' % x for x in range(4, 100, 4))
feb = r'(February) +(?:%s|%s)' % (
r'(?:(0?[1-9]|1\d|2[0-8])), *%s' % years, # 1-28 any year
r'(?:(29), *((?:(?:19|20)%s)|2000))' % fours) # 29 leap years only
result = '|'.join('(?:%s)' % x for x in (thirties, thirtyones, feb))
r = re.compile(result)
print result
Run Code Online (Sandbox Code Playgroud)
然后我们有:
>>> r.match('January 30, 2001') is not None
True
>>> r.match('January 31, 2001') is not None
True
>>> r.match('January 32, 2001') is not None
False
>>> r.match('February 32, 2001') is not None
False
>>> r.match('February 29, 2001') is not None
False
>>> r.match('February 28, 2001') is not None
True
>>> r.match('February 29, 2000') is not None
True
>>> r.match('April 30, 1908') is not None
True
>>> r.match('April 31, 1908') is not None
False
Run Code Online (Sandbox Code Playgroud)
你可能会问,这个辉煌的正则表达是什么?
>>> print result
(?:(September|April|June|November) +(0?[1-9]|[12]\d|30), *((?:19|20)\d\d))|(?:(January|March|May|July|August|October|December) +(0?[1-9]|[12]\d|3[01]), *((?:19|20)\d\d))|(?:February +(?:(?:(0?[1-9]|1\d|2[0-8]), *((?:19|20)\d\d))|(?:(29), *((?:(?:19|20)(?:04|08|12|16|20|24|28|32|36|40|44|48|52|56|60|64|68|72|76|80|84|88|92|96))|2000))))
Run Code Online (Sandbox Code Playgroud)
(我最初的目的是对可能的日期做一个简洁的列举,但我基本上最终用手写了除了4的倍数之外的整个事情.)