Jor*_*ter 11 algorithm search dictionary nlp
有没有办法认识到一个单词可能是/不可能是一个人的名字?
因此,如果我看到"理解"这个词我会得到0.01的概率,而"约翰逊"这个词会返回0.99的概率,而像史密斯这样的词会返回0.75和像苹果0.15这样的词.
有没有办法做到这一点?
我们的目标是,如果有人搜索,比方说Charles Darwin galapagos
,搜索引擎猜测,它应该搜索作者字段Charles
,并Darwin
与标题和抽象领域galapagos
.
我的快速黑客将是这样的:
从人口普查局获取名单,按人气顺序排列,免费提供.为每个名称指定一个标准化的受欢迎度分数(1.0 =最受欢迎,0.0 =最少).
然后,获取一个开源词典,并做一些研究,以便为每个单词汇总一个频率分数.你可以在这里找到一个,在wiktionary.为每个单词指定一个受欢迎度分数,1.0到0.0.方便的是,如果你在频率列表上找不到一个单词,你会认为它是一个非常罕见的单词.
在两个列表中查找单词.如果它只是在一个或另一个,你就完成了.如果它在两者上,使用公式来计算加权概率...类似(名称人气)/(名称人气+其他人气).如果它不在任何一个列表中,它可能是一个名字.
自然语言处理中的相关任务称为命名实体识别,并处理人员,组织,位置等的名称.
设计用于解决此问题的大多数模型本质上是统计的,并且在其预测中使用上下文和先验知识.可以使用许多开源实现,例如Stanford NER,请参阅在线演示.