对排名事项的分数进行标准化的最佳方法是什么?

Jam*_*mes 3 algorithm math

我很好奇如何对排名算法的数字进行标准化

假设我想根据重要性对链接进行排名,我有两列可供使用

所以桌子看起来像

网址| 评论| 意见

现在我想将评论排在高于观点的位置,所以我首先考虑做评论*3或其他东西来加权,但是如果有一个大的观点数,如40,000,只有4条评论那么评论权重就会被淘汰.

所以我认为我必须将这些分数标准化为一个更平等的比赛场地才能加权.有关通常如何做的任何想法或指示?

谢谢

btr*_*eat 5

对于每个网址,您可以先将评论和观看次数标准化为百分位数.例如,

 comment_percentile = (comments - min(comments)) / (max(comments) - min(comments))
 views_percentile = (views - min(views)) / (max(views) - min(views))
Run Code Online (Sandbox Code Playgroud)

然后,您可以为每个百分位值指定权重以计算总分.

 url_score = (comment_percentile_weight * comment_percentile) + (views_percentile_weight * views_percentile)
Run Code Online (Sandbox Code Playgroud)

如果值聚集到范围的一端,则附加策略可能涉及消除异常值.

  • 我不认为这是百分位数的作用,但我可能是错的 (2认同)