如何解释SoftMax回归中的"soft"和"max"?

Shu*_*ang 6 machine-learning softmax

我知道softmax回归的形式,但我很好奇为什么它有这样的名字?或者只是出于某些历史原因?

Ita*_*atz 3

假设您有一组标量xi,并且想要计算它们的加权和,wi为每个xi标量赋予一个权重,使权重之和为 1(类似于离散概率)。一种方法是设置wi=exp(a*xi)一些正常数a,然后将权重标准化为 1。如果a=0你只得到一个常规样本平均值。另一方面,对于非常大的ayou getmax运算符值,即加权和将只是最大的xi。因此,改变 的值可以a为您提供一种“软”的方式,或者是从常规平均到选择最大值的连续方式。如果您已经知道什么是 SoftMax 回归,那么您应该对这个加权平均值的函数形式很熟悉。