[解決済み] イプシロン貪欲q学習におけるイプシロンと学習率の減衰について

2022-02-15 21:10:16

質問

イプシロンとは、探査と開発のトレードオフを示すものだと理解しています。最初のうちは、大きく飛躍して物事を学ぶために、εを高くしたいと思うでしょう。将来の報酬について学ぶにつれて、εは減少し、あなたが見つけたより高いQ値を利用できるようになるはずです。

しかし、確率的な環境では、私たちの学習率も時間とともに減衰するのでしょうか？私が見たSOの投稿では、イプシロン減衰の話ばかりでした。

値が収束するようなイプシロンとアルファの設定方法とは？

どのように解決するのですか？

<ブロッククオート

最初のうちは、大きく飛躍して物事を学ぶために、イプシロンが高くなるようにします。

イプシロンと学習率を勘違いしているのでは？この定義は、実は学習率に関係しているのです。

学習率減衰

学習率とは、最適な方針を見つけるためにどれくらいの飛躍をするかということです。単純なQLearningで言えば、1ステップごとにどれだけQ値を更新しているかということです。

高く α は、Q値を大きなステップで更新していることを意味します。エージェントが学習しているとき、モデル出力を安定させるためにこれを減衰させる必要があり、最終的に最適なポリシーに収束します。

イプシロン減衰

イプシロンは、すでに持っているQ値に基づいて特定のアクションを選択するときに使用されます。例えば、純粋な貪欲法( epsilon = 0 )を選択すると、常に特定の状態に対するすべてのq値の中から最も高いq値を選択することになります。このため、局所最適に陥りやすく、探索の際に問題が発生します。

そこで、イプシロンを用いてランダム性を導入する。例えば、ε=0.3であれば、実際のq値に関係なく0.3の確率でランダムな行動を選択することになる。

イプシロン-グリーディポリシーの詳細を見るこちら .

結論として、学習率は飛躍の大きさに関連し、イプシロンは行動のランダムさに関連します。学習が進むにつれて、両者は安定化し、最適なものに収束する学習された方針を利用するために減衰するはずである。

[解決済み] イプシロン貪欲q学習におけるイプシロンと学習率の減衰について

質問

どのように解決するのですか？

関連

[解決済み】TensorFlowでtf.gradientsが動作する方法