san*_*ity 5 artificial-intelligence machine-learning data-mining
假设我想根据哪些标签存在或不存在来确定我将在SO上提出问题的可能性.
让我们想象一下,我有很多关于我过去或过去没有投票的问题的数据.
是否有机器学习算法可以获取这些历史数据,对其进行训练,然后能够预测我未来问题的推荐概率?请注意,它必须是概率,而不仅仅是一些任意分数.
让我们假设最多有7个标签与任何给定的问题相关联,这些标签是从成千上万的超集中提取的.
我希望它能够在标签之间建立非常复杂的连接,而不是每个标签只是以"线性"方式对最终结果做出贡献(就像贝叶斯垃圾邮件过滤器中的单词一样).
因此,例如,可能是"java"这个词增加了我的upvote概率,除非它与"数据库"一起出现,但是"数据库"可能会增加我的"红宝石"时出现的upvote概率.
哦,它应该是计算上合理的(在数百万个问题上训练一两个小时).
我应该在这里研究什么方法?
鉴于每条消息可能没有很多标签,您可以只创建“n-gram”标签并应用朴素贝叶斯。回归树还会在叶节点产生经验概率,使用 +1 表示赞成,使用 0 表示不赞成。有关一些可读的讲义,请参阅http://www.stat.cmu.edu/~cshalizi/350-2006/lecture-10.pdf ;有关开源实现,请参阅http://sites.google.com/site/rtranking/。
| 归档时间: |
|
| 查看次数: |
315 次 |
| 最近记录: |