自動更新

並べ替え:新着順

ベストポスト
メニューを開く

@mnishi41 こんにちはいつも拝読させていただております、波浪です メルマガ向けに送信したTokenizerの開腹データ、こちらで画像に変換してみたので可能であればお差し替えいただければ幸いです 画像の長さについては自由にご編集ください(5chと中国18禁で学習されている事がわかればいいだけなので pic.twitter.com/OHca4lWmXD

メニューを開く

返信先:@aksjdn272255テキストは画像や音と違って信号データではないですし、学習データが非公開の場合は、生成データから逆デバッグしづらいですもんね。 ただ、厳密に言うと(サブワード)tokenizerの学習の時点でもCommonCrawl系データを使用している以上、基盤モデル本体以前にtokenizerもタダノリ度ひどいとおもいます

まさき| CVML-EG 管理人@cvml_eg

メニューを開く

from_pretrained に text_encoder_3=None, tokenizer_3=None も渡さないと VRAM 足りなくなるみたい。よく分からない。これらを渡すと GTX 1080 (VRAM 8 GB) で絵が出るようになるようだ。diffusers 力がなさすぎて感覚がさっぱり分からない…。

derwind@s_derwind

メニューを開く

・新規トークン追加時のtoken embeddingsの初期化はランダムで行うのではなく、元々の全てのembeddingsの平均を取って初期化した方が良い(qloraのsmart_tokenizer_and_embedding_resizeのような実装?) ・ChatMLのフォーマットを使う場合、bos_tokenとeos_tokenをどう設定するべきかに議論がある模様

メニューを開く

量子化したけどllama_model_load: error loading model: error loading model vocabulary: cannot find tokenizer merges in model fileと言われて動かなかった。

mutaguchi@mutaguchi

メニューを開く

sarashinaのtokenizerの挙動が謎すぎたけど、なんだかわかってきた気がする

あるふ@alfredplpl

メニューを開く

返信先:@kohya_techそのうち12万9000行はT5のtokenizer.jsonでした笑

動詞@IMG_5955

メニューを開く

GPTのtokenizerが公式APIになくて、Pythonのtiktokenが公式でも勧められている トークンIDと文字列を対応づけたくてどうやって受け渡そうかと思っていたが、PyCall.jlからPythonの関数を呼び出す方法がシームレスすぎて、Pythonの文法に全く立ち入らずにコーディングできた 多対多対応だった pic.twitter.com/9jyeSpuOSG

YTOK_cp@CpYtok

メニューを開く

tiktokenって名前からして トークン数をかぞえるツールなのかと思ってたけど 実はトークナイザーだったのね Hugging Face tokenizerのトークン数かぞえるために 危うくインストールするところだった 普通にtorch.numel()で数えることができた

くるる🍃✨🌸🍑🫧@currnya

メニューを開く

よって、 p = AutoPipelineForText2Image.from_pretrained(...) print(type(p.tokenizer), type(p.text_encoder)) すれば実体が見えて、それぞれ CLIPTokenizer と CLIPTextModel なので、テキスト埋め込みは CLIP で作ってるんだな、と分かった。

derwind@s_derwind

メニューを開く

全部ポータブルなTokenizer使って学習してくれてあればner……(願望)

メニューを開く

公式のqwen2-7BのGGUFは 手元のllama.cppだと unknown pre-tokenizer type:qwen2 のエラーで起動出来ないね😑 再量子化されるのを待つか😅

競馬AItuber Haruka@haruka_umajou

メニューを開く

なでしこ3をLSPでVScode楽になったりしないかなと思ったけど、本体のtokenizer/parser流用はむりっぽいな。可能な限りエラーで中断せず全体を検証できないと不便だし、build-in含めたpluginの命令をcommand.jsonの形でplugin自身から取り込めないと厳しそう。

てぃふと@うぇいく@weykt

メニューを開く

Qdrantのfull-text indexingの tokenizerオプションでmultilingualを指定しているが、動いている気がしない ビルドに含めなきゃいけないっぽいけど、開発用のコンテナだしなー。コンテナオプションか何かにあるんだろうか

首無しキリン@Kill_In_Sun

メニューを開く

transformers で tokenizer をモデルから取得する処理をよく見るんだがあれは一体何をしているんだろうか

hawksnowlog@hawksnowlog

メニューを開く

やっぱCLIPのTokenizer、日本語ダメかも。たぶんbertベースだと思うんだよね pic.twitter.com/N4gf2dBXxR

あるふ@alfredplpl

メニューを開く

返信先:@alfredplplなんとなく、追加であればtokenizerに追加して継続学習でいけそうな……

甘木きょこ@8hmVmEGJ6nFyUE5

メニューを開く

LMのtokenizerに入っていない文字ってどう処理されるの?バイト列として処理されるの?

あるふ@alfredplpl

メニューを開く

雑な実装はこんな感じ。Cohereのtokenizerは"("と"(("が別になるみたいなので、" ( ( "のように括弧の周りにスペースを入れる必要がある。 pic.twitter.com/OkoO03B1NR

Kohya Tech@kohya_tech

メニューを開く

tokenizer_config.json を ollama の Modelfile に変換する仕組みって無いのかしら? chat_template まわりの ベストプラクティスが整備されてなくて 新しいモデルを試すのがちょっとしんどい

くるる🍃✨🌸🍑@currnya

メニューを開く

#DeepSpeedJP やっぱりtokenizerも更新したくなってきますね(私はまだ手を出せていないけど・・・)

YOSHIFUJI Naoki@LWisteria

メニューを開く

Mistral-7B-Instruct-v0.3 ・語彙サイズを32768に拡張 ・v3 Tokenizerをサポート ・function callingをサポート しか書かれていませんが、ミストラルの0.3です Baseモデルも公開されてますが、そっちは ・語彙サイズを32768に拡張 しか書かれてません huggingface.co/mistralai/Mist…

webbigdata@webbigdata

メニューを開く

transformersのRobertaも同じみたいですね(特殊トークンの文字は少し違いますが…) kaggle で<sep>トークンをたくさんくっつけた時に影響が出ないのか疑問だったのですが… tokenizerの__call__のコードを読んでて関連する処理に関するコードは見つけたのですが、疲れた+時間がないので終わりにします pic.twitter.com/FAZikC64da

メニューを開く

今日はTokenizerの学習走らせて、帰宅します。夜通し頑張れCPU。

Daiki Yokokawa @ 家庭医 診断+AI@DaikiYokokawa

メニューを開く

XユーザーのAixileさん: 「gpt-4o で使われたo200k_base tokenizer の日本語の部分・・・完全に5ちゃんねる・・・ pic.twitter.com/LJXhdJQcJI」 / X x.com/_aixile/status…

Aixile@_aixile

gpt-4o で使われたo200k_base tokenizer の日本語の部分・・・完全に5ちゃんねる・・・

Kei Nishikawa@KeiNishikawa3

メニューを開く

Geminiはいつになったら、Tokenizerを見れるようにしてくれるのだろうか...わかるのはトークン数(課金)のみというのがアレだ... platform.openai.com/tokenizer

Hirotaka Niisato@hirotakaster

メニューを開く

fastchatモジュール内でtokenizeする際、add special token=falseを指定していないために、 (使っていたtokenizerでは)promptの最後にeosトークンが自動挿入されてしまう点が問題だったことが分かりました。

畠山 歓 Kan Hatakeyama@kanhatakeyama

temperature=0.1 などの生成設定を同じにしたつもりなのに、ベンチマークプログラム内では、 モデルがおバカになる(?)挙動が発生しています。 プロンプトテンプレートや内部挙動など、諸々の要素を調べ中です。

畠山 歓 Kan Hatakeyama@kanhatakeyama

メニューを開く

tokenizerの状態管理が難しいってちゃんと言える人。すごい #rubykaigi #rubykaigiB

kaneko.y@spikeolaf

メニューを開く

日本語のtokenizerがすごく良くなってる?

メニューを開く

gpt-4oは特に長文要約が良くなったと思う。tokenizerが日本語良くなった結果だろうか

メニューを開く

Tokenizerと遠くないさで踏める

かもリバー@xcloche

メニューを開く

GPT-4oはtokenizerの改良で日本語が40%多く読めるようになったから実質179k tokenかな

もとそ@motoso

メニューを開く

openaiの公式?Tokenizer って出てたのか。 platform.openai.com/tokenizer

あとやす@a_yasui

メニューを開く

gpt4oのtokenizerがねらーっぽいという話題

メニューを開く

ZeTT, Zero-Shot Tokenizer Transfer トークナイザーと LLM の依存関係を取り去る研究 arxiv.org/html/2405.0788… github.com/bminixhofer/ze…

Benjamin Minixhofer@bminixhofer

Introducing Zero-Shot Tokenizer Transfer (ZeTT) ⚡ ZeTT frees language models from their tokenizer, allowing you to use any model with any tokenizer, with little or no extra training. Super excited to (finally!) share the first project of my PhD🧵

ぬこぬこ@schroneko

メニューを開く

GPT4o tokenizerに2ch由来の語彙が多い件は難しい問題で、wikipediaやECサイトのナビゲーションリンク等も頻出語彙として獲得されがちです。 最新のllm-jp-tokenizer v3ではUnigramモデルで獲得した語彙を形態素解析辞書と突合して単語らしいものを優先して登録しています。 drive.google.com/file/d/1-UmeD5…

hiroshi matsuda@hmtd223

メニューを開く

gpt-4o で使われたo200k_base tokenizer の日本語の部分・・・完全に5ちゃんねる・・・ pic.twitter.com/5qQe1Mwd3Y

Aixile@_aixile

メニューを開く

RWKV world ベース tokenizer で, スケールする Exact dedup のSuffix Array 構築を極めました. 民生 PC なら 100 TB くらいの日本語データ, 富岳なら 10 PB くらいはいけるよ🤗 > LLM 日本語データセット(コーパス)構築向け: C++ Exact dedup at scale(Suffix Array 構築編) zenn.dev/syoyo/articles…

syoyo.eth 🌸 レイトラ ® 🐯 6 周年 🎉@syoyo

トレンド4:58更新

  1. 1

    ふらいんぐうぃっち

    • 無料公開
  2. 2

    LINE Pay かんたん送金サービス

    • LINE Pay
  3. 3

    ニュース

    根室半島

    • 震度2
    • 緊急地震速報
    • 津波の心配はありません
  4. 4

    エンタメ

    パントキック

    • タカトシ
    • 共通テスト
  5. 5

    カスタムバトル

    • ドラゴンボール Sparking! ZERO
    • ブロリー
  6. 6

    ナインティナインANN

    • ナインティナインのオールナイトニッポン
    • 田原俊彦
    • トシちゃん
    • ナイナイANN
    • タカトシ
    • ナインティナイン
  7. 7

    ジャニーズ被害を告発し山中で死亡

  8. 8

    屋久島

    • おいでやす小田
    • マヂラブ
    • 野田さん
  9. 9

    真女神転生V

  10. 10

    証拠隠滅

20位まで見る

人気ポスト

電車遅延(在来線、私鉄、地下鉄)

遅延している路線はありません

全国の運行情報(Yahoo!路線情報)
よく使う路線を登録すると遅延情報をお知らせ Yahoo!リアルタイム検索アプリ
Yahoo!リアルタイム検索アプリ