use*_*186 0 algorithm artificial-intelligence machine-learning
我为AI玩家设计了一种学习算法,尝试不同的方法来赢得比赛,然后继续使用最高赢率的方法.如果最高赢率方法开始失败,则进入第二高赢率等方法......
我需要写一下学习算法,它可以被称为什么?
Raf*_*ard 5
该算法没有名称,因为相对于此类问题的存在,它并不是特别好(无攻击性).
你正在"解决"的是多臂强盗问题."不同的获胜方法"是您的老虎机,而您的"赢率"是每台老虎机的支付赔率.因为你正在与另一个人对战并且他们可能会改变他们的策略,所以你必须处理最好的老虎机可能"开始失败"的可能性.这是一种对抗性场景.从许多不同的角度/场景中有很多关于这个主题的论文和算法.它研究得很好,人们仍然对它感兴趣.
我假设这是一些课程项目报告.我只是称之为"我的启发式方法",因为它就是这样.
归档时间:
12 年 前
查看次数:
197 次
最近记录: