Tru*_*gDQ 20 youtube sorting algorithm weighted-average
Youtube提供两种排序选项:最新的第一和最高评论."最新的第一个"非常简单,我们只是根据他们的发布日期对评论进行排序.但"热门评论"似乎要比"大拇指"排序要复杂得多.

经过短暂的研究,我发现评论的顺序取决于这些:
但我不知道Youtube如何使用这些信息来决定顺序,比如什么信息更重要,什么不重要.
有没有关于这个主题的文章我可以参考?
谢谢!
小智 36
我有你的问题的答案.在互联网上寻找答案之后,我从来没有找到我正在寻找的东西.所以,我和我的同事决定使用Youtube评论系统进行实验.首先,我们将我们认为是热门视频的内容整理成一个部分,将平均视频分类到另一个部分,并将不太流行的视频分类到最后一部分.每个部分共有200个视频,经过几天的检查后,我们开始注意到一种模式.我们发现你对所需的三件事情是正确的,但我们也更深入地发现了一个额外的变量.Youtube评论系统取决于四个方面:发布的时间,评论/不喜欢评论的比例,回复的数量,以及,不管你信不信,世界卫生组织发布了它.您发布的每条公众评论的平均喜欢/不喜欢的比例构成了它,因为(我们预测的)他们认为那些喜欢/喜欢比率低的人会发表许多人不喜欢或不同意的评论.它有一个算法,它比你想象的要简单得多.基本上有一些我们称之为"模块点"的东西,你会根据这四个因素得到一个.首先,您需要了解有关模块点转换的两个因素:
对于评论中的喜欢/不喜欢比率,将该数字乘以10.
对于评论所具有的回复量(不是来自原始海报),有两个模块点.
这是表示评论所具有的模块点数量的两个基本因素.例如,如果评论有27个喜欢和8个不喜欢,那么比率将是3.375.乘以10,您将得到33.75个模块点.使用下一个因素,回复量,让我们说这个评论有四个直接回复.乘以2乘4,我们得到8.这是您在累积模块点上添加八个部分的部分,总共提供41.75个模块点.
但我们没有在那里完成,这是它变得棘手的地方.使用他们公开发布的一个人的总评论的平均喜欢/不喜欢比率,我们发现添加到累积模块点的公式是这样的:
(C =注释位置变量; MP =模块点数; R =人的总喜欢/不喜欢比率)
C = MP(R/3)+(MP/10)
相信我,我们只在这一部分花费DAYS,这可能是最令人沮丧的.即使这个等式中的三个和十个似乎是随机的和不必要的,到目前为止我们测试这个等式的所有注释都通过了测试,但是当这两个变量被移除时没有通过测试.完成此等式后,它会为您提供一个我们命名为位置变量的数字.
但是,我们还没有完成,我们还没有谈及时间.实际上我很惊讶这部分并没有像我预期的那样长,但是对于我们测试的每一条评论来说,确实每次都做这个等式是很痛苦的.首先,在测试时,我们认为如果两个评论具有相同的位置变量,那么时间就是打破障碍.实际上,当发生这种情况时,我几乎把它称为实验包装,但经过进一步检查,我们发现还有更多工作要做.我们发现一些评论相互之间的评价相同,其位置变量相同,但时间似乎是随机的.经过几天的检查,这里是最终结果的来源:
在应用第四个变量之前,我们必须找到另一个方程式.使用另一个单独的等式,这是我们的代数推论归结为:( X =时间变量; S =视频在几分钟内发布的时间; A =评论在几分钟内发布的时间)
X = 1/3(S/10 + A)x [绝对值](A - 3S)
我希望我能做到这一点,但不幸的是,这是系统的复杂程度.其他变量背后有数学原因,但它们太复杂而无法解释,它可能会占用至少3段值得解释.我们在超过150条评论中测试了这个等式,所有这些评论都是真实的.
一旦找到X,这就是我们所谓的时序变量,你所要做的就是将它应用于这个等式:
(X =时序变量; C =定位变量)
N = X(C/4 + 1)
N是你所有问题的答案.这是最后的等式,最后的答案.简单的结论是:N越高,评论越高.特别感谢我的同事:David Mattison,Josh Williams,Diego Mendieta,Steven Orsette和Kyle Shropshire.如果没有他们以及他们为此付出的努力,我可能永远都不会发现这一点.