Phi*_*l H 5 algorithm math pagerank graph svd
Pagerank在一系列页面的节点图上工作,并且由它们各自的向内和向外链接形成有向边.因此,特定页面的等级在节点图中广泛地是局部诱导的效果.
另一方面,SVD在整个值矩阵上工作,并且没有方向性 - 站点A和站点B之间的链接仅在正确的矩阵元素上注册为1.它是一个全球系统,因此排名是一种全球性的影响.
鉴于Web派生矩阵的极度稀疏性,我认为SVD在这里表现不佳,因为它需要完整的数据集,并且具有显着的内存要求.
真的吗?Pagerank是否超越SVD主要是因为它是基于节点图的算法?Pagerank如何推断出一个页面超出提及单词次数的语义相关性?或者这是第二步,是在Pagerank对页面进行排名后执行的吗?
这里有两个问题:哪个度量很容易计算,哪个可以产生我们正在寻找的信息?我不知道这两个问题的答案,但我也许可以给出部分答案。
\n\n首先,相关性。用网络理论的术语来说,这两个量都是中心性度量。PageRank 计算特征向量中心性(的变体),而 SVD 显然导致了 \xef\xbb\xbf 超链接引发的主题搜索 (HITS) 算法。我从Peter Dodds(佛蒙特大学)的讲义中得到了这一点。它们衡量不同的事物,但我不清楚哪一个与衡量网页的重要性最相关。
\n\n其次,计算成本。从数学上讲,PageRank 是(修改后的)邻接矩阵的主要特征向量(如维基百科页面上所解释的),而 HITS 给出了邻接矩阵的主要奇异向量。两者都是由网页的全局网络及其之间的链接定义的,并且两者都可以通过仅考虑本地节点图来计算。所以乍一看,我认为计算成本大致相等。
\n\n总之,我不知道为什么PageRank比SVD更好;我什至不清楚它是否比 SVD 更好。
\n