ポスト

llama8bでも、loss spikeの峠を超えられました。 今までの敗因は、llama系で、adam_beta2をmegatronの初期値(0.999)という、かなり攻めた値にしていたことのようです。 この値を0.95まで下げつつ、今回のトークナイザの性質も踏まえlrを2e-5まで抑えたことで、安定性が上がりました。 pic.twitter.com/ElYjBRQlTc

メニューを開く
畠山 歓 Kan Hatakeyama@kanhatakeyama

βとθを下げた、新生llama 8b(紫)が学習に挑みます。5時間以内にloss spikeが起きるか否かが、分水嶺です。 api.wandb.ai/links/weblab-g… 先行するgpt2(snapshot保存済み)は、カリキュラム学習の次のstage(赤線より右)まで無事に行けました。

畠山 歓 Kan Hatakeyama@kanhatakeyama

みんなのコメント

メニューを開く

ropeのθを125000から10000に下げたのも、重要かもしれません

畠山 歓 Kan Hatakeyama@kanhatakeyama

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ