ポスト

Llama 3.1 405Bは、SFT→DPO→合成データ生成を6 iterations繰り返しました。 現状、このレベルのモデルの蒸留元となれるモデルは存在しないけれど、自己改善手法を採用し主にプログラミング関連の能力の向上に寄与したみたいです。 最終的に合成データは2.7M examplesがSFTに使用されました。 pic.twitter.com/O61SEcXIfU

メニューを開く

はち@CurveWeb

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ