ポスト

Metaが今年1月に出したLLMの自己改善手法であるSelf-Rewardingについて、メモを書きました。 Llama2 70BをGPT-4のような先端モデルや人手なしにPreference-tuningしていく手法になります。 論文メモ: Self-Rewarding Language Models|はち #note note.com/hatti8/n/n46af…

メニューを開く

はち@CurveWeb

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ