我正试图解决使用MapReduce实现PageRank的理论问题.
我有以下三个节点的简单场景:AB C.
邻接矩阵在这里:
A { B, C }
B { A }
Run Code Online (Sandbox Code Playgroud)
例如,PageRank for B等于:
(1-d)/N + d ( PR(A) / C(A) )
N = number of incoming links to B
PR(A) = PageRank of incoming link A
C(A) = number of outgoing links from page A
Run Code Online (Sandbox Code Playgroud)
我对所有的原理图以及映射器和减速器的工作方式都很好,但是我无法理解在减速器计算时如何知道C(A).当通过聚合到B的传入链接计算B的PageRank时,reducer将如何知道每个页面的传出链接的数量.这是否需要在某些外部数据源中查找?