ポスト

2個目の論文難しい。 Transformers Can Achieve Length Generalization But Not Robustly Yongchao Zhou1,2, Uri Alon1 , Xinyun Chen1 , Xuezhi Wang1 , Rishabh Agarwal1 and Denny Zhou1 1Google DeepMind, 2University of Toronto

メニューを開く

てっちゃん(Ted | Yasuhiro Kawamura)@tedyasu77

みんなのコメント

メニューを開く

この論文は 長さ汎化は、短い学習シーケンスから長いテストシーケンスに外挿する能力のこと。適切なデータ形式と位置エンコーディングで、Transformerは入力長の5倍まで外挿可能だが、依然として脆弱であり、ランダムウェイト初期化などの要因に影響される。 です。

てっちゃん(Ted | Yasuhiro Kawamura)@tedyasu77

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ