如果强化学习(RL)算法在现实世界中工作之前需要在模拟环境中进行大量迭代,为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法RL?
reinforcement-learning supervised-learning
reinforcement-learning ×1
supervised-learning ×1