ポスト

価値反復法やっていこう〜。ベルマン期待方程式、ベルマン最適方程式、ベルマン期待作用素の復習が入っているの有り難い〜〜。 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア youtube.com/watch?v=BYh4uw…

メニューを開く

きのすけ@kinosuke01

みんなのコメント

メニューを開く

価値反復法みおわりー。ベルマン最適作用素の連続適用でV*の推定値を取得して、その推定値からQ*の推定値を計算し、そこから最適方策πを得る感じ。方策反復法と大きく違うのは、一度πを求めたらそこでおしまいで、ベルマン作用素の適用のステップに戻らなくてよい点。

きのすけ@kinosuke01

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ