时间提取(即从自由格式文本中提取日期/时间实体) - 如何?

hen*_*y74 9 date extraction temporal semantics

有没有人找到一种简单但有效的方法从文本中提取日期引用?我已经做了大量的时间提取工具搜索,但是没有很多东西.有一些白皮书,但它似乎属于整个语义网的一个子集,但没有给予太多的关注.

我只是在找80%有效的东西.没有必要捕捉像"2009年1月之后的月份"之类的东西,但是基本的日期实体会很好.

我对所有建议持开放态度,甚至是花哨的正则表达式.

消防!

(谢谢 - 亨利)

jjx*_*tra 1

我这样做的一种方法是只查找 4 个数字并将其转换为数字。如果该数字在您感兴趣的年份范围内,那么您可能有一年可以使用。如果您对任何匹配的月份和日期感兴趣,您可以检查相邻的单词,看看它们是月份名称还是 1 到 31 之间的数字。我相信这会满足您 80% 的要求。

年份的正则表达式:[0-9]{4} - 您需要转换为数字并查看它是否在您认为有效的年份范围内。

月份的正则表达式:jan|january|feb|february ...等等每个月

一个月中各天的正则表达式:[0-9]{1,2} - 您需要转换为数字并查看它是否为 1-31