ポスト

@s_tat1204 自己注意機構の解析に焦点を当てた論文なので,Feed Forward層を抜いたトイモデルを力学系として解析している論文ですね.さらに解析を簡単にするためにQ, K, Vを層に寄らない単位行列として解析しています(SA, USA) arxiv.org/abs/2312.10794

メニューを開く

Yusuke Hayashi 林祐輔 𝕏@hayashiyus

みんなのコメント

メニューを開く

こちらの論文でも、特徴ベクトルの変化を観察して、Self-Attentionは「平均シフトクラスタリング」に近いと考察していました。 推論高速化の研究なのですが、切り口も分析もとても面白い内容でした。 Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time arxiv.org/abs/2310.17157

サッカーインフル@footballinflu

メニューを開く

ありがとうございます。作用素P = Residualを多様体上での微分とみなしたものですよね。 ご紹介いただいた arxiv.org/abs/2305.05465 の論文でも V = I_d は仮定されており、解析にはこの仮定が重要なのだと理解しました。Q^T K > 0 の仮定もQ=K=I_dからの自然な延長として理解できます。 自分も X… pic.twitter.com/1fGT131IBx

Tatsuya Shirakawa@s_tat1204

Yahoo!リアルタイム検索アプリ