ポスト

ルールベースの報酬モデル (RBR) によるアラインメント。 「人間のフィードバック」部分にコスト面やアノテーションの質的な問題があるため、「AI フィードバック」ができるようにしている。Usefulness (回答拒否をしない) と Safety の観点でちょうど良い領域に持っていける。GPT-4… pic.twitter.com/7Y8i5HfZOi x.com/OpenAI/status/…

メニューを開く
OpenAI@OpenAI

We’ve developed Rule-Based Rewards (RBRs) to align AI behavior safely without needing extensive human data collection, making our systems safer and more reliable for everyday use. openai.com/index/improvin…

et al.@eta1ia

みんなのコメント

メニューを開く

望ましい・望ましくない挙動に関して記載した詳細なルールとモデル出力から特徴量を計算し、その特徴量で線形モデル (RBR) をフィッティング。従来の報酬モデルのアウトプットに足し合わせてる形で組み込む。

et al.@eta1ia

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ