从文本中提取与年龄相关的信息

Question

从文本中提取与年龄相关的信息

我试图在用户在互联网上发布的大型消息数据集中找到年龄的提及（存储在 .csv 中）

我目前在 python 中使用正则表达式来提取年龄并将其保存在列表中

例如，“我 20 岁”将返回 20 到列表“他现在 30 岁”将返回 30 “她五十多岁”将返回 50

但问题是，对于庞大的数据集，使用 RE 非常慢，如果文本处于我的 RE 不满意的模式中，那么我无法获得年龄......所以，我的问题是：有没有更好的方法来做到这一点? 也许python中有一些NLP包/工具？我试着研究 nltk 是否有这方面的东西，但它没有。

ps：对不起，如果问题不清楚，英语不是我的第一语言..我已经包含了我在下面使用的一些RE..

m = re.search(r'.*(I|He|She) (is|am) ([0-9]{2}).*',s,re.IGNORECASE)
n = re.search(r'.*(I|He|She) (is|am) in (my|his|her) (late|mid|early)? ?(tens|twenties|thirties|forties|fifties|sixties|seventies|eighties|nineties|hundreds).*',s,re.IGNORECASE)
o = re.search(r'.*(I|He|She) (is|am) (twenty|thirty|forty|fifty|sixty|seventy|eighty|ninety|one|two|three|four|five|six|seven|eight|nine|ten|eleven|twelve|thirteen|fourteen|fifteen|sixteen|seventeen|eighteen|nineteen) ?(one|two|three|four|five|six|seven|eight|nine)?.*',s,re.IGNORECASE)
p = re.search(r'.*(age|is|@|was) ([0-9]{2}).*',s,re.IGNORECASE)
q = re.search(r'.*(age|is|@|was) (twenty|thirty|forty|fifty|sixty|seventy|eighty|ninety|one|two|three|four|five|six|seven|eight|nine|ten|eleven|twelve|thirteen|fourteen|fifteen|sixteen|seventeen|eighteen|nineteen) ?(one|two|three|four|five|six|seven|eight|nine)?.*',s,re.IGNORECASE)
r = re.search(r'.*([0-9]{2}) (yrs|years).*',s,re.IGNORECASE)
s = re.search(r'.*(twenty|thirty|forty|fifty|sixty|seventy|eighty|ninety|one|two|three|four|five|six|seven|eight|nine|ten|eleven|twelve|thirteen|fourteen|fifteen|sixteen|seventeen|eighteen|nineteen) ?(one|two|three|four|five|six|seven|eight|nine)? (yrs|years).*',s,re.IGNORECASE)

Run Code Online (Sandbox Code Playgroud)

Answer 1

cha*_*aos 1

请参阅从Python中的非结构化文本中提取人的年龄，特别是与使用Allen NLP有关的答案，这似乎正是您所要求的。

归档时间：	10 年，9 月前
查看次数：	1200 次
最近记录：	4 年，6 月前