进化策略和强化学习之间的区别？

Question

我正在学习机器人强化学习中采用的方法，并遇到了进化策略的概念。但我无法理解 RL 和 ES 有何不同。谁能解释一下？

Answer 1

据我了解，我知道两个主要的。

1）强化学习使用了一个agent的概念，agent通过以不同的方式与环境交互来学习。在进化算法中，它们通常从许多“代理”开始，只有“强大的代理才能生存”（具有产生最低损失特征的代理）。

2)强化学习代理同时学习积极和消极的动作，但进化算法只学习最优的，消极或次优的解决方案信息被丢弃和丢失。

例子

您想构建一个算法来调节房间内的温度。

房间的温度是 15 °C，而您希望它是 23 °C。

使用强化学习，代理将尝试一系列不同的动作来升高和降低温度。最终，它了解到提高温度会产生很好的回报。但它也了解到降低温度会产生不好的回报。

对于进化算法，它从一堆随机代理开始，这些代理都有一组预编程的动作。然后具有“升高温度”动作的代理存活下来，并移动到下一代。最终，只有提高温度的代理才能存活并被认为是最佳解决方案。但是，该算法不知道如果降低温度会发生什么。

TL;DR： RL 通常是一个代理，尝试不同的动作，并学习和记住所有信息（正面或负面）。EM 使用许多猜测许多动作的代理，只有具有最佳动作的代理才能生存。基本上是一种解决问题的蛮力方法。