在幂律分布之后标准化/缩放/标准化多个变量的正确方法,用于线性组合

Jac*_*gby 6 linear-equation graph normalize rescale power-law

我想将社交网络图中的一些节点指标组合成单个值,以便对节点进行排序:

in_degree + betweenness_centrality = informal_power_index

问题在于,in_degree并且betweenness_centrality在不同的尺度上进行测量,例如0-15对0-35000,并遵循幂律分布(至少绝对不是正态分布)

有没有一种很好的方法来重新调整变量,以便在确定变量时不会主导另一个变量informal_power_index

三种明显的方法是:

  • 标准化变量(减去mean和除以stddev).这似乎会破坏分布太多,隐藏长尾值和高峰值之间的巨大差异.
  • 通过减去min(variable)和除以,将变量重新调整到[0,1]范围max(variable).这似乎更接近解决问题,因为它不会改变分布的形状,但也许它不会真正解决问题?特别是手段会有所不同.
  • 通过将每个值除以来均衡均值mean(variable).这不会解决尺度上的差异,但平均值可能对比较更重要?

还有其他想法吗?

Tha*_*had 1

您可以将每个值转换为百分比,然后将每个值应用到已知的数量。然后使用新值的总和。

((1 - (in_degee / 15) * 2000) + ((1 - ( Betweenness_centrality / 35000) * 2000) = ?