hen*_*y74 9 date extraction temporal semantics
有没有人找到一种简单但有效的方法从文本中提取日期引用?我已经做了大量的时间提取工具搜索,但是没有很多东西.有一些白皮书,但它似乎属于整个语义网的一个子集,但没有给予太多的关注.
我只是在找80%有效的东西.没有必要捕捉像"2009年1月之后的月份"之类的东西,但是基本的日期实体会很好.
我对所有建议持开放态度,甚至是花哨的正则表达式.
消防!
(谢谢 - 亨利)
我这样做的一种方法是只查找 4 个数字并将其转换为数字。如果该数字在您感兴趣的年份范围内,那么您可能有一年可以使用。如果您对任何匹配的月份和日期感兴趣,您可以检查相邻的单词,看看它们是月份名称还是 1 到 31 之间的数字。我相信这会满足您 80% 的要求。
年份的正则表达式:[0-9]{4} - 您需要转换为数字并查看它是否在您认为有效的年份范围内。
月份的正则表达式:jan|january|feb|february ...等等每个月
一个月中各天的正则表达式:[0-9]{1,2} - 您需要转换为数字并查看它是否为 1-31