ポスト

llama8bでも､loss spikeの峠を超えられました｡今までの敗因は､llama系で､adam_beta2をmegatronの初期値(0.999)という､かなり攻めた値にしていたことのようです｡この値を0.95まで下げつつ､今回のトークナイザの性質も踏まえlrを2e-5まで抑えたことで､安定性が上がりました｡ pic.twitter.com/ElYjBRQlTc

メニューを開く

畠山　歓　Kan Hatakeyama@kanhatakeyama5月1日(水) 9:50

βとθを下げた､新生llama 8b(紫)が学習に挑みます｡5時間以内にloss spikeが起きるか否かが､分水嶺です｡ api.wandb.ai/links/weblab-g… 先行するgpt2(snapshot保存済み)は､カリキュラム学習の次のstage(赤線より右)まで無事に行けました｡

畠山　歓　Kan Hatakeyama@kanhatakeyama

1
26

5月1日(水) 16:21

みんなのコメント

メニューを開く

ropeのθを125000から10000に下げたのも､重要かもしれません

畠山　歓　Kan Hatakeyama@kanhatakeyama

5月1日(水) 17:22

もっと見る

人気ポスト

店員に「こいつシャンプーラーメン作るんだな」って思われるの本当に恥ずかしいんだよな

三淵嘉子よりも9歳年上の女性で、女学校を卒業と同時に結婚も、8年で離婚。そこから法曹を志し、嘉子と同じ明治大学を経て、1945年に司法試験に合格、1949年には日本で初めての女性裁判官になる石渡満子が『＃虎に翼』にも登場するならば、いや…まさか…でも…もしかして…の展開、ある？

市民から提供されたけど場所や年代が分からない古い写真を、来場者がふせんを貼って特定していく企画をせんだいメディアテークでやっていてずっと見ていた。アナログの集合知。

同じような格好で同じように寝てたんだってwww

素麺だけどもはやラーメンなこれ最高すぎるからぜひ作ってほしい。おかわり無限ループいけそうなやみつきの味してます。スープはレンジで簡単。水200ml、鶏ガラ大1/2弱、3倍濃縮麺つゆ小1、おろしにんにく少々を熱々になるまで600Wで2分程チンし塩で調えたら茹でた素麺にかけ、ごま油大1/2、黒胡椒。

父「あの緑の石鹸いいよなぁすごい顔も身体もスッキリして」私「えなにそれオリーブオイルの石鹸？」父「いや上に置いてあるデカいイイ緑のやつ」＿人人人人人人＿＞　ウタマロ　＜￣Y^Y^Y^Y^Y￣

全身写真見ると身長高くてよかったなって思う

初めて家に来た日、怖がってベッドの下から出てこなかった時の写真見てほしいこんな小さい体で敵だらけの世界の中を生き抜こうとしてたんだもんな〜そりゃ突然人間に保護されても怖いよね🥲

ここ最近よくわからない葉書が事務所に届いていたんだ。風景印が押してある。裏には一文字ずつ印刷されていた。集めると、これ。おいおい、お前何がしたいんだよ。このために郵便局をまわっているお前は、何か切ない。…

1969年太いゴムホースでバンバン机をたたき、「やる気！　やる気！」と腹の底から絶叫する。「営業マン実力強化合宿訓練」のひと幕。 #昭和 #モーレツ

もっと見る

トレンド23:19更新

20位まで見る

電車遅延（在来線、私鉄、地下鉄）

北海道東北関東中部近畿中国四国九州

全国の運行情報（Yahoo!路線情報）

よく使う路線を登録すると遅延情報をお知らせ　Yahoo!リアルタイム検索アプリ

Yahoo!リアルタイム検索アプリ