ポスト

安直ですが、元モデルについて、各タスクiで層を積み増して 、元モデルのブロックは凍結して、task_i+emb_i+head_iのようにモデルを更新。MoEの初期値は emb_iとhead_iは平均化、task_iは 並列につなげて、全結合層は自作して、元のモデルに積む。最後に、目的とするタスクでファインチューニング pic.twitter.com/8eFRi6t5Uv

メニューを開く

masaoutiyama@masaoutiyama

みんなのコメント

メニューを開く

ありがとうございます。すごく面白そうです 以下の画像のようなイメージでしょうか? RNNで、トークンごとに、参照レイヤーが変化すると思うので、非常に興味があります pic.twitter.com/GT9pBOGFSi

OpenMOSE@_m0se_

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ