确定具有评级和观看次数的视频的受欢迎程度

1 math statistics voting rating-system

我即将开始一个新项目 - 一个视频网站.用户可以通过点击"喜欢"或"不喜欢"或其他相关内容进行注册和投票.无论如何,它将是一个2选项投票系统,而不是一个五星系统.

每隔X天,我就会生成最受欢迎视频的"图表".所以我的问题是:我应该如何确定给定视频的受欢迎程度?

如果我按照大多数视图计算视频的路线,这可能会产生非常糟糕的视频效果,使其成为图表(仅仅因为它们非常糟糕).

如果我根据"喜欢"和"不喜欢"投票的数量(例如,100票赞成票,50票不等票等于2票)进入评分系统的路线,那么视图很少的视频可能出现在图表.

所以,我需要做的是两者的结合.当然,禁止垃圾观点和投票.

你们这个主题的想法是什么?

编辑:删除了以下标签:[ mysql ] [ postgresql ],为其他更具代表性的标签腾出空间; 预期实现中使用的SQL技术似乎并没有太多关于评级模型本身的考虑因素.

mjv*_*mjv 5

你似乎错过了那些喜欢和不喜欢电影的观点,即使在相对同质的"选民"群体的背景下也是客观的.想想" Chix Flix "一词或称为" NetFlix " 的成功故事如何说明这种主观性......

然而,如果你坚持实施你建议的模型,那么有几个隐藏变量和系统动态需要被确认,并且可能在评级公式中被考虑在内.

  • 投票的第三个隐含价值的存在:"没有投票",
    即当有人观看电影页面但却没有投票时,无论如何.
    处理这个额外价值的问题在于它的模糊性:人们不投票是因为他们没有看电影,还是因为他们既不喜欢也不喜欢它?很可能两者兼而有之,因此我们可以/应该使用公式中"无需投票的页面浏览量"的计数,以提高(稍微)不会产生强烈(正面或负面)情绪的电影的评级(以免"极化"电影将显得更加臭名昭着或受欢迎)
  • 从众效应
    过去某个阈值,特别是如果评级和/或投票数是页面视图之前可见,评级和投票计数可以影响人决定投票(无论哪种方式),甚至决定放弃投票的方式.这意味着总投票和/或观看次数与有效等级线性无关.
  • " 质量 "与" 恶名 "
    一般的投票比率(例如"喜欢"/"总数"或"喜欢"/"不喜欢"等)表示电影的"质量"(请注意质量的引用. .),其中投票数(和观点数)表示电影的恶名("名称识别"等).
  • 统计代表性
    非常小的投票和/或观点计数应谨慎处理,因为它们会在评级中引入很大的波动性.换句话说,小样本不具有静态代表性的评级.
  • 趋势(时间变量)
    冒着使模型复杂化的风险,考虑保留[某些]记录投票/观看的时间,以便识别集合中的"热"(和"冷却")电影.该信息可以通知评级逻辑,但也可以用于将用户指向当前热门项目.BTW,因此提供了所提到的潮流效应:-(但也增加了投票样本大小:-).

所有这些考虑因素都表明在实施此评级系统时要谨慎.它还暗示可能需要将有关整套电影的统计数据纳入个别电影的评级公式中.换句话说,不要仅仅根据自己的投票/观看次数对给定的电影进行评级,而且还要考虑移动接收的平均投票次数,电影页面获得的最大视图等等.事实上,一个迭代过程,首先对电影进行[大致]排名,然后通过使用类似评级的电影组的统计数据来重新计算排名可以提供更好的系统(假设公式是"公平的"并且以某种方式收敛)