ポスト

@s_tat1204 自己注意機構の解析に焦点を当てた論文なので，Feed Forward層を抜いたトイモデルを力学系として解析している論文ですね．さらに解析を簡単にするためにQ, K, Vを層に寄らない単位行列として解析しています（SA, USA） arxiv.org/abs/2312.10794…

メニューを開く

Yusuke Hayashi 林祐輔 𝕏@hayashiyus

5月13日(月) 23:59

みんなのコメント

メニューを開く

こちらの論文でも、特徴ベクトルの変化を観察して、Self-Attentionは「平均シフトクラスタリング」に近いと考察していました。推論高速化の研究なのですが、切り口も分析もとても面白い内容でした。 Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time arxiv.org/abs/2310.17157

サッカーインフル@footballinflu

5月16日(木) 7:45

メニューを開く

ありがとうございます。作用素P = Residualを多様体上での微分とみなしたものですよね。ご紹介いただいた arxiv.org/abs/2305.05465 の論文でも V = I_d は仮定されており、解析にはこの仮定が重要なのだと理解しました。Q^T K > 0 の仮定もQ=K=I_dからの自然な延長として理解できます。自分も X… pic.twitter.com/1fGT131IBx

Tatsuya Shirakawa@s_tat1204

5月14日(火) 0:27

もっと見る

人気ポスト

容姿端麗でない人お断りな大手企業たち

こんなの履いてテニスできるわけ無いだろ

暴風で京葉線は運行見合わせなのに後ろを見るとさりげなく普通に走ってるディズニーリゾートライン最強すぎるwww

これはモテるのも大納得だわ

親にプログラミングの勉強くらい簡単やろとか言われてこれ

紙芝居のおじさん流石に脚すぎるよ、、、

元アルバイトとしてモスシェイクコーヒーは美味しすぎるので是非とも飲んでほしい

マツコの知らない世界でマツコが「エンゼルハート」に触れていたらしいけど以前見たマツコのゆで卵の殻の破り方がサイファーと同じだった事を思い出したし絶対に意識しているんだと思う

これは流石にダメだろ...

この寝癖、一生ついててほしい

もっと見る

トレンド1:27更新

20位まで見る

電車遅延（在来線、私鉄、地下鉄）

北海道東北関東中部近畿中国四国九州

全国の運行情報（Yahoo!路線情報）

よく使う路線を登録すると遅延情報をお知らせ　Yahoo!リアルタイム検索アプリ

Yahoo!リアルタイム検索アプリ