- すべて
- 画像・動画
並べ替え:新着順
@mnishi41 こんにちはいつも拝読させていただております、波浪です メルマガ向けに送信したTokenizerの開腹データ、こちらで画像に変換してみたので可能であればお差し替えいただければ幸いです 画像の長さについては自由にご編集ください(5chと中国18禁で学習されている事がわかればいいだけなので pic.twitter.com/OHca4lWmXD
返信先:@aksjdn272255テキストは画像や音と違って信号データではないですし、学習データが非公開の場合は、生成データから逆デバッグしづらいですもんね。 ただ、厳密に言うと(サブワード)tokenizerの学習の時点でもCommonCrawl系データを使用している以上、基盤モデル本体以前にtokenizerもタダノリ度ひどいとおもいます
from_pretrained に text_encoder_3=None, tokenizer_3=None も渡さないと VRAM 足りなくなるみたい。よく分からない。これらを渡すと GTX 1080 (VRAM 8 GB) で絵が出るようになるようだ。diffusers 力がなさすぎて感覚がさっぱり分からない…。
・新規トークン追加時のtoken embeddingsの初期化はランダムで行うのではなく、元々の全てのembeddingsの平均を取って初期化した方が良い(qloraのsmart_tokenizer_and_embedding_resizeのような実装?) ・ChatMLのフォーマットを使う場合、bos_tokenとeos_tokenをどう設定するべきかに議論がある模様
量子化したけどllama_model_load: error loading model: error loading model vocabulary: cannot find tokenizer merges in model fileと言われて動かなかった。
GPTのtokenizerが公式APIになくて、Pythonのtiktokenが公式でも勧められている トークンIDと文字列を対応づけたくてどうやって受け渡そうかと思っていたが、PyCall.jlからPythonの関数を呼び出す方法がシームレスすぎて、Pythonの文法に全く立ち入らずにコーディングできた 多対多対応だった pic.twitter.com/9jyeSpuOSG
tiktokenって名前からして トークン数をかぞえるツールなのかと思ってたけど 実はトークナイザーだったのね Hugging Face tokenizerのトークン数かぞえるために 危うくインストールするところだった 普通にtorch.numel()で数えることができた
よって、 p = AutoPipelineForText2Image.from_pretrained(...) print(type(p.tokenizer), type(p.text_encoder)) すれば実体が見えて、それぞれ CLIPTokenizer と CLIPTextModel なので、テキスト埋め込みは CLIP で作ってるんだな、と分かった。
なでしこ3をLSPでVScode楽になったりしないかなと思ったけど、本体のtokenizer/parser流用はむりっぽいな。可能な限りエラーで中断せず全体を検証できないと不便だし、build-in含めたpluginの命令をcommand.jsonの形でplugin自身から取り込めないと厳しそう。
Qdrantのfull-text indexingの tokenizerオプションでmultilingualを指定しているが、動いている気がしない ビルドに含めなきゃいけないっぽいけど、開発用のコンテナだしなー。コンテナオプションか何かにあるんだろうか
雑な実装はこんな感じ。Cohereのtokenizerは"("と"(("が別になるみたいなので、" ( ( "のように括弧の周りにスペースを入れる必要がある。 pic.twitter.com/OkoO03B1NR
tokenizer_config.json を ollama の Modelfile に変換する仕組みって無いのかしら? chat_template まわりの ベストプラクティスが整備されてなくて 新しいモデルを試すのがちょっとしんどい
Mistral-7B-Instruct-v0.3 ・語彙サイズを32768に拡張 ・v3 Tokenizerをサポート ・function callingをサポート しか書かれていませんが、ミストラルの0.3です Baseモデルも公開されてますが、そっちは ・語彙サイズを32768に拡張 しか書かれてません huggingface.co/mistralai/Mist…
transformersのRobertaも同じみたいですね(特殊トークンの文字は少し違いますが…) kaggle で<sep>トークンをたくさんくっつけた時に影響が出ないのか疑問だったのですが… tokenizerの__call__のコードを読んでて関連する処理に関するコードは見つけたのですが、疲れた+時間がないので終わりにします pic.twitter.com/FAZikC64da
XユーザーのAixileさん: 「gpt-4o で使われたo200k_base tokenizer の日本語の部分・・・完全に5ちゃんねる・・・ pic.twitter.com/LJXhdJQcJI」 / X x.com/_aixile/status…
Geminiはいつになったら、Tokenizerを見れるようにしてくれるのだろうか...わかるのはトークン数(課金)のみというのがアレだ... platform.openai.com/tokenizer
fastchatモジュール内でtokenizeする際、add special token=falseを指定していないために、 (使っていたtokenizerでは)promptの最後にeosトークンが自動挿入されてしまう点が問題だったことが分かりました。
temperature=0.1 などの生成設定を同じにしたつもりなのに、ベンチマークプログラム内では、 モデルがおバカになる(?)挙動が発生しています。 プロンプトテンプレートや内部挙動など、諸々の要素を調べ中です。
ZeTT, Zero-Shot Tokenizer Transfer トークナイザーと LLM の依存関係を取り去る研究 arxiv.org/html/2405.0788… github.com/bminixhofer/ze…
Introducing Zero-Shot Tokenizer Transfer (ZeTT) ⚡ ZeTT frees language models from their tokenizer, allowing you to use any model with any tokenizer, with little or no extra training. Super excited to (finally!) share the first project of my PhD🧵
GPT4o tokenizerに2ch由来の語彙が多い件は難しい問題で、wikipediaやECサイトのナビゲーションリンク等も頻出語彙として獲得されがちです。 最新のllm-jp-tokenizer v3ではUnigramモデルで獲得した語彙を形態素解析辞書と突合して単語らしいものを優先して登録しています。 drive.google.com/file/d/1-UmeD5…
RWKV world ベース tokenizer で, スケールする Exact dedup のSuffix Array 構築を極めました. 民生 PC なら 100 TB くらいの日本語データ, 富岳なら 10 PB くらいはいけるよ🤗 > LLM 日本語データセット(コーパス)構築向け: C++ Exact dedup at scale(Suffix Array 構築編) zenn.dev/syoyo/articles…