无法理解线性回归的成本函数

Fah*_*eem 26 math machine-learning linear-algebra

我真的无法理解下面的等式,尤其是1/(2m).

这个等式的目的是什么?哪里1/(2m)来了?

J(theta_0, theta_1) = 1/(2m) * sum_(i=1)^m [ h_theta(x^i) - y^i ]^2
Run Code Online (Sandbox Code Playgroud)

请解释.如何施展???

lej*_*lot 79

成本函数是

J(theta_0, theta_1) = 1/(2m) * sum_(i=1)^m [ h_theta(x^i) - y^i ]^2
Run Code Online (Sandbox Code Playgroud)

通过h_theta(x^i)我们表示什么模型输出x^i,h_theta(x^i) - y^i它的错误也是如此(假设,这y^i是一个正确的输出).

现在,我们计算这个错误的平方[ h_theta(x^i) - y^i ]^2(除去符号,因为这个错误可能是正面的和负面的)并在所有样本上求和,并以某种方式约束它我们将它标准化 - 只需要除以m,所以我们有意思(因为我们按样本数量排除)平方(因为我们平方)错误(因为我们计算错误):

1/m * sum_(i=1)^m [ h_theta(x^i) - y^i ]^2
Run Code Online (Sandbox Code Playgroud)

2将显示在前面使用仅用于衍生的简化,因为当你将尽量减少它,你会用最速下降法,它是基于这个函数的导数.衍生的a^22a,而我们的函数是一个正方形的东西,所以这2将取消.这是它存在的唯一原因.

  • 因为这种扩展不会导致任何简化,并且只增加额外的操作(计算(ab)^ 2比^ 2-2ab + b ^ 2便宜,因为第一个需要2个人工操作,而第二个 - 6). (4认同)
  • Abs在零时不可微分,平方惩罚更强,因此收敛更快.理论分析也存在二次损失,甚至还有闭合形式解.话虽这么说,你仍然可以使用abs,只需记住这些属性 (3认同)
  • 好的很好 这是一个很好的答案.我现在知道了.但如果你不介意的话,还有一个问题.[h_theta(x ^ i)-y ^ i] ^ 2类似于(ab)^ 2,其等于a ^ 2 + b ^ 2-2ab.为什么我们不扩展[h_theta(x ^ i)-y ^ i] ^ 2,如[h_theta(x ^ i)] ^ 2 + y ^ i] ^ 2 - 2 [h_theta(x ^ i)] [y ^一世]?谢谢 (2认同)