在神经网络中weight decay起到的做用是什么?momentum

2025-04-05 03:14:09
推荐回答(2个)
回答1:

说下自己对momentum的看法。momentum是冲量单元,但是更好地理解方式是“粘性因子”,也就是所说的viscosity。momentum的作用是把直接用SGD方法改变位置(position)的方式变成了用SGD来对速度(velocity)进行改变。momentum让“小球”的速度保持一个衡量,增加了某一方向上的连续性,同时减小了因为learning带来的波动,因此使得我们采用更大的learning rate来进行训练,从而达到更快。
另一位答主的回答也是有道理的,个人认为没有提到learning rate对网络能快速收敛解释不足,摘录如下:
“momentum是冲量单元,也就是下式中的m,作用是有助于训练过程中逃离局部最小值,使网络能够更快速地收敛,也是需要经过反复地trial and error获得的经验值。”

作者:Hzhe Xu
链接:http://www.zhihu.com/question/24529483/answer/88729904
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

回答2:

weigth decay的作用是用来放在cost function中作为正则项,来防止overfitting的,这样做的目的是使不重要的特征项权重变小。