ポスト

Your Language Model is Secretly a Q-Function [Rafailov+, 2024] DPOはトークン単位の逆Q学習とみなせることを導出。また信用割り当てや探索アルゴリズムとの関係を示し、ビームサーチによる出力品質の改善を確認。 arxiv.org/abs/2404.12358… #NowReading pic.twitter.com/COrDGtFcIX

メニューを開く

Shion Honda@shion_honda

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ