ポスト

この方法まじで最高だなぁと思う。 詳しくアーキテクチャ勉強しよう。裏側で具体的にどんな計算してんのか知りたい

メニューを開く
ぱぷりか炒め@WMjjRpISUEt2QZZ

実験的にlightblue/suzume-llama-3-8B-japaneseの差分をMeta-Llama-3-70B-Instructに適用したモデルを作成してみました 差分を拡張して前後8Layer外の中間Layerを70Bに合わせて引き延ばして適用しています 差がわかりませんでしたが供養の為公開いたします ipynbもあります huggingface.co/mmnga/Llama-3-…

Tomonari Inoue@___________13g

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ