yur*_*ura 5 algorithm search geolocation geonames disambiguation
对地理名称数据进行位置消歧的最佳方法是什么?
有一些用于地理名称搜索的评分算法,但他们没有开源它,我不确定它们是非常复杂的.(即soma, ca它返回Soma lake in Canada哪些甚至没有维基百科文章,而不是非常受欢迎Soma Neirbohood in san francisco)
我在谷歌学者中也发现了一些作品,但它们看起来非常浅薄,与我的启发式相似,比如得分(log(population) + 1000*hasWikipedia(article)+ isCity100+isCapital(10)).
我在旅行文章中的域名,所以我的评分功能应该提供最可能的旅游景点(城市,名胜古迹(迪士尼乐园,收藏馆,大本钟)).
你知道这个领域的任何重要文章,还是谷歌地图,雅虎,冰甚至地名的生产算法?
@yura,这不是你要找的,但我认为没有任何聪明的算法能够始终如一地消除诸如“soma ca”之类的查询是指旧金山的 Soma 还是加拿大的 Soma Lake 的歧义。问题不在于你的算法不够复杂;而在于你的算法不够复杂。问题是查询“soma ca”中根本没有足够的信息。
我不知道如何清楚地表达它,但是这里发生了信息论的事情。这就像随机数据无法无损压缩一样:输入中没有足够的信息来计算所需的输出。
即使人类手动解释您的查询,他们也不一定理解“soma ca”应该是 SF 中的 Soma。也许对你来说,像“ca”这样的两个字母的缩写“自然地”指的是美国的一个州而不是外国,但这个选择从根本上来说没有什么“正确”的,而且它不能用纯粹的逻辑推导出来。log(population)这是一个任意的、特定于领域的临时规则,就像您提到的临时启发式一样。
一些可能的“解决方案”(除了设计一台可以读取用户想法的心灵感应计算机之外):