是否有监督学习算法将标签作为输入,并产生概率作为输出？

Question

假设我想根据哪些标签存在或不存在来确定我将在SO上提出问题的可能性.

让我们想象一下,我有很多关于我过去或过去没有投票的问题的数据.

是否有机器学习算法可以获取这些历史数据,对其进行训练,然后能够预测我未来问题的推荐概率？请注意,它必须是概率,而不仅仅是一些任意分数.

让我们假设最多有7个标签与任何给定的问题相关联,这些标签是从成千上万的超集中提取的.

我希望它能够在标签之间建立非常复杂的连接,而不是每个标签只是以"线性"方式对最终结果做出贡献(就像贝叶斯垃圾邮件过滤器中的单词一样).

因此,例如,可能是"java"这个词增加了我的upvote概率,除非它与"数据库"一起出现,但是"数据库"可能会增加我的"红宝石"时出现的upvote概率.

哦,它应该是计算上合理的(在数百万个问题上训练一两个小时).

我应该在这里研究什么方法？

Answer 1

鉴于每条消息可能没有很多标签，您可以只创建“n-gram”标签并应用朴素贝叶斯。回归树还会在叶节点产生经验概率，使用 +1 表示赞成，使用 0 表示不赞成。有关一些可读的讲义，请参阅http://www.stat.cmu.edu/~cshalizi/350-2006/lecture-10.pdf ；有关开源实现，请参阅http://sites.google.com/site/rtranking/。