ポスト

どういうことだろうと思って論文を眺めてみたら、Feed Forward Layerは抜いた場合の解析っぽいですね。これは読み落としてそうな気がしてならないですが、Q, K, Vも層によらず、かつ、Vは単位行列なようです(Vは単位行列なので、Attentionは点を互いに重みづけながら足し合わせるだけ)。 ※ Q, K,… pic.twitter.com/XuOHAnIh29

メニューを開く
Yusuke Hayashi 林祐輔 𝕏@hayashiyus

Transformersに投入された単位球上のトークンベクトルは層から層へ伝搬する度に単位球上を移動し,最終的には単位球上の1点に収束する. A mathematical perspective on Transformers - Github github.com/borjanG/2023-t…

Tatsuya Shirakawa@s_tat1204

みんなのコメント

メニューを開く

@s_tat1204 自己注意機構の解析に焦点を当てた論文なので,Feed Forward層を抜いたトイモデルを力学系として解析している論文ですね.さらに解析を簡単にするためにQ, K, Vを層に寄らない単位行列として解析しています(SA, USA) arxiv.org/abs/2312.10794

Yusuke Hayashi 林祐輔 𝕏@hayashiyus

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ