ポスト
これおもしろいw 「@お腹いっぱい」が1token 学習データに一体何が… pic.twitter.com/Ka0Li9b14e
メニューを開くshuyo@shuyo
tiktokenでGPT-4oの新トークナイザーo200k_baseの語彙を眺める。前のcl100k_baseは「こんにちは」「ありがとう」くらいだった日本語の語彙が増えた。例えば以下の表現は1トークンになる。 名無し・名無しさん・転載は禁止・VIPがお送りします 学習データはホンマにそれで良かったんかと小一時間(ry
これおもしろいw 「@お腹いっぱい」が1token 学習データに一体何が… pic.twitter.com/Ka0Li9b14e
メニューを開くtiktokenでGPT-4oの新トークナイザーo200k_baseの語彙を眺める。前のcl100k_baseは「こんにちは」「ありがとう」くらいだった日本語の語彙が増えた。例えば以下の表現は1トークンになる。 名無し・名無しさん・転載は禁止・VIPがお送りします 学習データはホンマにそれで良かったんかと小一時間(ry