ポスト

The Instruction Hierarchy [Wallace+, 2024] 悪意のあるプロンプトに対処するため、指示に階層を導入することを提案(システム>ユーザ>モデル出力>ツール出力の順)。合成データでGPT-3.5を強化学習することで、攻撃に対する頑健性を向上させることに成功。 arxiv.org/abs/2404.13208 #NowReading pic.twitter.com/wFhJi95GPr

メニューを開く

Shion Honda@shion_honda

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ