ポスト

・Self-Attentionに依存しない学習方法(アーキテクチャ) - Attention Free Transformer (AFT) > 学習済みの位置バイアスを利用して、KとVの加重平均を計算し、Qを要素ごとに掛け算することにより、行列計算を不要にする - S4 > 状態空間モデルにもとづき、長距離依存を捉える

メニューを開く

村山 理@sam_murayama

みんなのコメント

メニューを開く

- RWKV, RetNet スケールするための技術:計算量(C)に関連する取組み ・並列計算 - データ並列(モデル全体をGPUに複製) > ZeRO:データ並列時のメモリ効率化 - モデル並列 >パイプライン並列 >テンソル並列

村山 理@sam_murayama

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ