ポスト
この方法まじで最高だなぁと思う。 詳しくアーキテクチャ勉強しよう。裏側で具体的にどんな計算してんのか知りたい
メニューを開くぱぷりか炒め@WMjjRpISUEt2QZZ
実験的にlightblue/suzume-llama-3-8B-japaneseの差分をMeta-Llama-3-70B-Instructに適用したモデルを作成してみました 差分を拡張して前後8Layer外の中間Layerを70Bに合わせて引き延ばして適用しています 差がわかりませんでしたが供養の為公開いたします ipynbもあります huggingface.co/mmnga/Llama-3-…