是否有使用强化学习进行文本分类的示例?

Anu*_*pta 8 nlp machine-learning reinforcement-learning deep-learning

想象一下二元分类问题,如情绪分析.既然我们有标签,我们不能用实际预测的间隔作为RL的奖励吗?

我想尝试强化学习分类问题

vik*_*405 8

有趣的想法!根据我的知识,它可以做到.

  1. 模仿学习 - 在较高的层次上,它观察由代理在环境中执行的样本轨迹,并使用它来预测给定特定统计配置的策略.我更喜欢概率图形模型用于预测,因为我在模型中有更多的可解释性.我从研究论文中实现了一个类似的算法:http://homes.soic.indiana.edu/natarasr/Papers/ijcai11_imitation_learning.pdf

  2. 逆强化学习 - 再次由斯坦福大学的Andrew Ng开发的类似方法,用于从样本轨迹中找到奖励函数,并且奖励函数可用于构建理想的动作. http://ai.stanford.edu/~ang/papers/icml00-irl.pdf