摩杰产品

摩杰资讯

联系电话：0898-08980898

当前位置：首页 > 摩杰注册

发布时间：2024-05-06 05:36:40点击量：

Adam：Adaptive Moment Estimation

Adam优化算法其实是动量梯度下降算法和RMSprop算法的结合。具体公式：

$Vdw=\\beta_{1}Vdw+(1-\\beta_{1})dw$

$Sdw=\\beta_{2}Sdw+(1-\\beta_{2})dw^{2}$

Adam优化算法需要做偏差修正：

$V_{dw}^{correction}=\\frac{V_{dw}}{1-\\beta_{1}^{t}}$

$S_{dw}^{correction}=\\frac{S_{dw}}{1-\\beta_{2}^{t}}$

更新权重：

$W=W-\\alpha\\frac{V_{dw}^{correction}}{\\sqrt{S_{dw}^{correction}}+\\varepsilon}$

Adam优化算法与动量梯度下降法、RMSprop算法一起是为数不多的使用与大多数神经网络的优化算法。

超参数：

$\\alpha$ ：最重要的超参，一般都需要去调节

$\\beta_{1}和\\beta_{2}$ ：一般默认值分别是0.9和0.999，一般去默认值不会去调节

$\\varepsilon$ ：一个不怎么重要的超参，一般不用调节

初始化：

$Vdw$ 和 $Sdw$ 初始化为0。

遗留问题：

1.为什么要做偏差修正？

返回列表