ポスト

- Swallowコーパス:日本語大規模ウェブコーパス(東工大) (手法) - URL filtering - ルールベースのフィルタリング - LLM Rephrasing(低品質 -> 高品質LLM) ・ディベートデータを用いた事後学習 ・MoE - FFN内に複数のExpetが存在する - Expert同士の通信が頻繁に行われる

メニューを開く

村山 理@sam_murayama

みんなのコメント

メニューを開く

- 先にDense(オリジナルのTransformer)を学習し、その重みを初期値としてMoEを学習させる方法もある - dMoE:ひとつのExpertを複数のGPUに分割する - Denseより高い学習率が適している youtube.com/watch?v=T1f4aq…

村山 理@sam_murayama

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ