ポスト
The Instruction Hierarchy [Wallace+, 2024] 悪意のあるプロンプトに対処するため、指示に階層を導入することを提案(システム>ユーザ>モデル出力>ツール出力の順)。合成データでGPT-3.5を強化学習することで、攻撃に対する頑健性を向上させることに成功。 arxiv.org/abs/2404.13208 #NowReading pic.twitter.com/wFhJi95GPr
メニューを開くThe Instruction Hierarchy [Wallace+, 2024] 悪意のあるプロンプトに対処するため、指示に階層を導入することを提案(システム>ユーザ>モデル出力>ツール出力の順)。合成データでGPT-3.5を強化学習することで、攻撃に対する頑健性を向上させることに成功。 arxiv.org/abs/2404.13208 #NowReading pic.twitter.com/wFhJi95GPr
メニューを開く