ポスト

価値反復法やっていこう〜。ベルマン期待方程式、ベルマン最適方程式、ベルマン期待作用素の復習が入っているの有り難い〜〜。【強化学習】価値反復法 - いきなり最適方策を推定！【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア youtube.com/watch?v=BYh4uw…

メニューを開く

きのすけ@kinosuke01

1
1

4月23日(火) 18:24

みんなのコメント

メニューを開く

価値反復法みおわりー。ベルマン最適作用素の連続適用でV*の推定値を取得して、その推定値からQ*の推定値を計算し、そこから最適方策πを得る感じ。方策反復法と大きく違うのは、一度πを求めたらそこでおしまいで、ベルマン作用素の適用のステップに戻らなくてよい点。

きのすけ@kinosuke01

4月25日(木) 20:11

もっと見る

人気ポスト

日本一住みたくない街

雨の日大嫌いな私が、もう何年も頼りにしてるHUNTERのレインブーツ.ᐟ🌧️これ尋常じゃない安定感で7cmヒールなのに超歩きやすくて脚綺麗に見える。サイドゴアはウエットスーツみたいな生地でこれまた快適。雨でもこれがあれば無敵だと思ってる（定価より1万近くお安いshopあった⬇︎）

これは義父が孫たち(いずれも両親がガチャガチャにお金を出さない)とお出かけした時に、スマートな感じでガチャガチャで小銭を出せるようにと準備しているやつ。義父、可愛くない？？？？？笑

今日甲子園で応援してたんやけど、隣の人がイギリスから来た人で、周りのカープファンに負けないぐらいの応援してて、応援歌をローマ字にしてノートにメモしたりしてて凄く勉強熱心やし、たった一つのチームが好きってだけで国境を超えて仲良くなれることに凄く感動した1日やった

生田斗真ってこんな人間だったのか

これがこう

機械音痴の姉、メッセージでお金送れてると思ってたのまだ面白い

無断欠勤からのマクドナルド

ずるいだろお前それ返し方

今、千尋がやっていることは、お父さんとお母さんを元に戻すよりも大切なことなのか？

もっと見る

トレンド1:12更新

20位まで見る

電車遅延（在来線、私鉄、地下鉄）

北海道東北関東中部近畿中国四国九州

全国の運行情報（Yahoo!路線情報）

よく使う路線を登録すると遅延情報をお知らせ　Yahoo!リアルタイム検索アプリ

Yahoo!リアルタイム検索アプリ