ʞɔı*_*ɔıu 3 math statistics probability power-law
Twitter最近宣布,您可以通过在以下公式中输入他们的关注者计数来高精度地估计任何给定Twitter用户的排名:
exp($ a + $ b*log(follower_count))
其中$ a = 21,$ b = -1.1
这显然比通过给定用户的跟随者计数对整个用户列表进行排序更有效.
如果您有来自不同社交网站的类似数据集,您如何获得$ a和$ b的值以适合该数据集?基本上是一些频率列表,其分布被假定为幂律.
您有以下型号:
y = exp(a + b.log(x))
Run Code Online (Sandbox Code Playgroud)
这相当于:
log(y) = a + b.log(x)
Run Code Online (Sandbox Code Playgroud)
因此,如果你把你的数据集的日志,结束了一个线性模型,这样,那么你可以用线性回归来确定最佳拟合值a和b.
然而,这听起来对我来说毫无意义.谁会说某个网络站点使用这种关系来确定用户排名?