ポスト

何が聞きたいのかと言うと,GPT-4o の tokenizer を作るときに, GPT-4 の推論の挙動 (どの token に attention を張りがちとか) を利用したのか,ということ

メニューを開く
Shinnosuke Takamichi / 高道 慎之介@forthshinji

(L)LM の tokenozer, モデルとは独立にやることが多いと思うんだけど、モデルの推論結果から tokenizer (&モデル)を再学習するとかあるのかしら。常に attention がかかりがちなトークンはマージするとか。

Shinnosuke Takamichi / 高道 慎之介@forthshinji

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ