ポスト
何が聞きたいのかと言うと,GPT-4o の tokenizer を作るときに, GPT-4 の推論の挙動 (どの token に attention を張りがちとか) を利用したのか,ということ
メニューを開くShinnosuke Takamichi / 高道 慎之介@forthshinji
(L)LM の tokenozer, モデルとは独立にやることが多いと思うんだけど、モデルの推論結果から tokenizer (&モデル)を再学習するとかあるのかしら。常に attention がかかりがちなトークンはマージするとか。