如何使用python从简历中提取经验?

ush*_*ana 0 python regex nltk python-2.7

我提取了邮件 ID、电话号码-通过使用正则表达式,我使用 Core NLP 服务器提取了名称,我通过提供一组单词并比较单词来提取技能。但我不知道如何提取多年使用 python 的经验 - 任何人都可以给出一个想法吗?例子:

2年经验

两年经验

2010-2014

像这样,有很多可能性。

Lea*_*ner 5

您可以采取几种方法。如果有很多可能性,如您所说,您可以将其视为机器学习问题并使用方法 1。否则为 1,如果可能性有限(例如,大约 5),您可以使用第二种方法。

方法一:

将其视为机器学习问题。将文本中的每个句子分类为 0 或 1,具体取决于它是否包含经验年份。这可以通过手动训练一些数据来完成。针对每个训练示例,您将分配一个标签。例如:

工作经验:3年(标签1)

学习两年(标签0)

多年努力(标签0)

两年经验(标签 1)

经历:2010-2014(标签1)

一旦有了很多示例,就可以使用skicit-learn或 类似的包来训练模型。

方法二:

1- 搜索多年。或者,它可以是确切的单词(yearyears),也可以是四位数字(例如,2014)。

2- 如果1通过,请在附近搜索“体验”一词(或类似的词)。

如果同时12传球,那么你有多年的经验。然后,根据您的需要,您可以进一步提取。