ポスト
Your Language Model is Secretly a Q-Function [Rafailov+, 2024] DPOはトークン単位の逆Q学習とみなせることを導出。また信用割り当てや探索アルゴリズムとの関係を示し、ビームサーチによる出力品質の改善を確認。 arxiv.org/abs/2404.12358… #NowReading pic.twitter.com/COrDGtFcIX
メニューを開くYour Language Model is Secretly a Q-Function [Rafailov+, 2024] DPOはトークン単位の逆Q学習とみなせることを導出。また信用割り当てや探索アルゴリズムとの関係を示し、ビームサーチによる出力品質の改善を確認。 arxiv.org/abs/2404.12358… #NowReading pic.twitter.com/COrDGtFcIX
メニューを開く