重建现在着名的17岁马尔可夫链信息检索算法"Apodora"

sil*_*asm 7 nlp information-retrieval machine-learning markov-chains

虽然我们都在大拇指,但一名17岁的加拿大男孩显然发现了一种信息检索算法:

a)以当前的精度和广泛使用的矢量空间模型的两倍精度执行

b)在识别相似词语时"相当准确".

c)使microsearch更准确

这是一个很好的采访.

不幸的是,我还没有发表任何已发表的论文,但是,从我几年前的图形模型和机器学习课程中记得的那些,我认为我们应该能够从他的submision摘要中重建它,以及他在采访中谈到它.

来自采访:

有些搜索会找到出现在类似上下文中的单词.这是相当不错的,但这是与第一学位的关系.我的算法尝试进一步跟踪连接.接近的连接被认为更有价值.从理论上讲,它遵循无限的联系.

摘要把它放在上下文中:

引入了一种称为"Apodora"的新型信息检索算法,利用马尔可夫链状矩阵的限制能力来确定文档的模型,并对单词的语义进行上下文统计推断.实现该系统并与向量空间模型进行比较.特别是当查询很短时,新算法给出的结果大约是精度的两倍,并且对于微搜索具有有趣的应用.

我觉得有人知道类似马尔可夫链的矩阵或信息检索会立即意识到他正在做的事情.

那么:他在做什么?

Aen*_*gus 3

从使用“上下文”等词以及他引入了二阶统计依赖性的事实来看,我怀疑他正在做一些与论文中概述的 LDA-HMM 方法相关的事情:Griffiths, T., Steyvers, M。 、Blei, D. 和 Tenenbaum, J. (2005)。整合主题和语法。神经信息处理系统的进展。由于模型平均,搜索分辨率存在一些固有的限制。然而,我很羡慕 17 岁时能做这样的事情,我希望他能独立地做一些事情,至少能做得更好。即使同一主题有不同的方向也会很酷。