我很好奇如何对排名算法的数字进行标准化
假设我想根据重要性对链接进行排名,我有两列可供使用
所以桌子看起来像
网址| 评论| 意见
现在我想将评论排在高于观点的位置,所以我首先考虑做评论*3或其他东西来加权,但是如果有一个大的观点数,如40,000,只有4条评论那么评论权重就会被淘汰.
所以我认为我必须将这些分数标准化为一个更平等的比赛场地才能加权.有关通常如何做的任何想法或指示?
谢谢
对于每个网址,您可以先将评论和观看次数标准化为百分位数.例如,
comment_percentile = (comments - min(comments)) / (max(comments) - min(comments))
views_percentile = (views - min(views)) / (max(views) - min(views))
Run Code Online (Sandbox Code Playgroud)
然后,您可以为每个百分位值指定权重以计算总分.
url_score = (comment_percentile_weight * comment_percentile) + (views_percentile_weight * views_percentile)
Run Code Online (Sandbox Code Playgroud)
如果值聚集到范围的一端,则附加策略可能涉及消除异常值.