ポスト

tiktokenでGPT-4oの新トークナイザーo200k_baseの語彙を眺める。前のcl100k_baseは「こんにちは」「ありがとう」くらいだった日本語の語彙が増えた。例えば以下の表現は1トークンになる。 名無し・名無しさん・転載は禁止・VIPがお送りします 学習データはホンマにそれで良かったんかと小一時間(ry

メニューを開く

shuyo@shuyo

みんなのコメント

メニューを開く

真面目な話をすると、例えば「研究」が5トークンから1トークンになった。今までは「研究」を参照するのにマルチヘッドを5本消費していたのが、1本で済むようになった(単純計算)。これは精度向上に相当貢献すると思われる。だから「VIPがお送りします」なんかに貴重なトークンIDを割り振(ry pic.twitter.com/Ft8vLaqKdI

shuyo@shuyo

メニューを開く

マジレスすると、今、日本語圏で活発な掲示板がないんですよね。完全に文化が死んでしまったので、いま日本語の最新の良質な掲示板の学習ソースが存在しないと思うのです。

江添亮@EzoeRyou

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ