1. ホーム
  2. neural-network

[解決済み] adam optimizerの学習率低下は必要?

2022-10-16 14:24:33

質問

Adam optimizerで画像ローカライズのためのネットワークを学習しているのですが、ある人から指数関数的減衰を使うように言われました。アダムオプティマイザ自体が学習率を減衰させるので、私はそれを試したくありません。しかし、その人はどうしてもそうしたいようで、以前はそうしていたと言っていました。また、その提案の背景には何か理論があるのでしょうか?

どのように解決するのですか?

それは、「人それぞれ」です。ADAMは任意のパラメータを個別の学習率で更新します。これは、ネットワーク内のすべてのパラメータは、特定の学習率に関連付けられていることを意味します。

しかし の場合、各パラメータの単一の学習率は、λ(初期学習率)を上限として計算される。これは、すべての単一の学習率が0(更新なし)からλ(最大更新)までの範囲で変化することを意味します。

確かに学習レートは学習ステップの間に適応していきますが、もしすべての更新ステップがラムダを超えないようにしたいのであれば、指数関数的減衰などを用いてラムダを低くすることができます。 これは、学習の最新ステップで、以前関連づけられたラムダパラメータで計算された損失が減少しなくなったときに、損失を減らすのに役立つことがあります。