ポスト

_人人人人人人人人人人人人_ > 日本語終了のお知らせ <  ̄Y^Y^ Y^Y^Y^Y^Y^Y^Y^Y ̄ pic.twitter.com/XqlhYLtDJs

メニューを開く
shuyo@shuyo

tiktokenでGPT-4oの新トークナイザーo200k_baseの語彙を眺める。前のcl100k_baseは「こんにちは」「ありがとう」くらいだった日本語の語彙が増えた。例えば以下の表現は1トークンになる。 名無し・名無しさん・転載は禁止・VIPがお送りします 学習データはホンマにそれで良かったんかと小一時間(ry

Kenn Ejima@kenn

みんなのコメント

メニューを開く

詳細が気になる人はこちらをどうぞ zenn.dev/hellorusk/arti… 単純に考えても語彙が10万→20万に増えてるのでカバレッジは広く圧縮率は高くなるのは自然なんですが、それにしても日本語の学習ソースといえば5chanという状況は…本当に終わっても知らんよ

Kenn Ejima@kenn

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ