我希望从非常短的文本示例中提取名称和位置
"cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes - monaco".
这个数据目前在MySQL数据库中,我(几乎)为每个运动员都有一个单独的记录,虽然名字有时拼写错误等.
我想提取运动员和位置.我通常使用PHP工作,但是无法找到用于实体提取的库(我可能希望将来更深入地学习一些NLP和ML).
从我发现的,LingPipe和NLTK似乎是最推荐的,但我无法弄清楚是否真的适合我的目的,或者其他什么会更好.
我没有用Java或Python编程,所以在开始学习新语言之前,我希望能得到一些关于我应该遵循的路线或其他建议的建议.
所以,这个问题可能有点天真,但我想要问Stackoverflow友好的人不会受伤.
我现在的公司已经在NLP上使用第三方API了一段时间了.我们基本上对一个字符串进行URL编码并将其发送出去,然后他们为我们提取某些实体(我们有一个我们正在查找的实体列表)并返回一个实体:情感的json映射.我们最近决定将这个项目改为内部.
我过去两天一直在研究NLTK,Stanford NLP和lingpipe,并且无法弄清楚我是否正在重新发明这个项目的轮子.
我们已经拥有包含原始非结构化文本的大量表格,以及包含该文本中提取的实体及其情绪的另一个表格.实体是单个单词.例如:
非结构化文本:现在用于床.这不是最好的.
实体:床
情绪:消极
我认为这意味着我们拥有培训数据(非结构化文本)以及实体和情感.现在我如何在其中一个NLP框架上使用此培训数据并获得我们想要的内容?没有线索.我有点步骤,但不确定:
但是,对于我上面提到的情况,这应该是失败的,因为它用2个不同的句子谈论床?
所以问题 - 是否有人知道完成上述任务的最佳框架是什么,以及相同的任何教程(注意:我不是要求解决方案).如果您之前已经完成了这些工作,这个任务是否太大而无法承担?我查了一些商业API,但使用起来非常昂贵(我们是一个小小的创业公司).
谢谢stackoverflow!