Optimizer

警告
本文最后更新于 2022-04-05,文中内容可能已过时。

前言

参考的资料和自己在进行炼丹(姑且这么称作)的时候,经常使用的是Adam,在尝试了learning_rate, schedule等方法(无果,大概…)后,突然想到要去了解一下其中的原理。

资料

一个框架看懂优化算法之异同 SGD/AdaGrad/Adam - 知乎 (zhihu.com)

Adam那么棒,为什么还对SGD念念不忘 (2)—— Adam的两宗罪 - 知乎 (zhihu.com)

Adam那么棒,为什么还对SGD念念不忘 (3)—— 优化算法的选择与使用策略 - 知乎 (zhihu.com)

综述

Adam自带优化,会调整learning_rate(所以自己再用schedule, 微调learning_rate貌似没啥用了……

大神都用SGD手调参数

0%