什么是"术语矢量算法"?

dav*_*jhp 7 algorithm

谷歌声称"术语矢量算法"可用于确定热门关键词.我研究过http://en.wikipedia.org/wiki/Vector_space_model,但无法理解术语"术语向量算法".

请用简短的总结,非常简单的语言解释,就像读者是小孩一样.

我认为"向量"指的是数学定义,即具有方向和数量的数量.关键字的数量如何向一个方向移动?

http://en.wikipedia.org/wiki/Vector_space_model声明"每个维度对应一个单独的术语." 我认为维度与基数有关,这是正确的吗?

在此输入图像描述

来自Alex Holmes的Hadoop In Practice一书,第12页.

mat*_*eek 9

这意味着每个单词形成一个单独的维度:

示例:(从这里无耻地采取)

对于只包含三个单词的模型,您将获得:

dict = { dog, cat, lion }

Document 1
“cat cat” ? (0,2,0) 

Document 2
“cat cat cat” ? (0,3,0)

Document 3
“lion cat” ? (0,1,1)

Document 4 
“cat lion” ? (0,1,1)
Run Code Online (Sandbox Code Playgroud)