すべて
画像・動画

自動更新

並べ替え：新着順

ベストポスト

メニューを開く

@mnishi41 こんにちはいつも拝読させていただております、波浪ですメルマガ向けに送信したTokenizerの開腹データ、こちらで画像に変換してみたので可能であればお差し替えいただければ幸いです画像の長さについては自由にご編集ください（5chと中国18禁で学習されている事がわかればいいだけなので pic.twitter.com/OHca4lWmXD

OLLAH@hellohazime

メニューを開く

返信先:@aksjdn272255テキストは画像や音と違って信号データではないですし、学習データが非公開の場合は、生成データから逆デバッグしづらいですもんね。ただ、厳密に言うと(サブワード)tokenizerの学習の時点でもCommonCrawl系データを使用している以上、基盤モデル本体以前にtokenizerもタダノリ度ひどいとおもいます

まさき| CVML-EG 管理人@cvml_eg

メニューを開く

from_pretrained に text_encoder_3=None, tokenizer_3=None も渡さないと VRAM 足りなくなるみたい。よく分からない。これらを渡すと GTX 1080 (VRAM 8 GB) で絵が出るようになるようだ。diffusers 力がなさすぎて感覚がさっぱり分からない…。

derwind@s_derwind

メニューを開く

・新規トークン追加時のtoken embeddingsの初期化はランダムで行うのではなく、元々の全てのembeddingsの平均を取って初期化した方が良い（qloraのsmart_tokenizer_and_embedding_resizeのような実装？）・ChatMLのフォーマットを使う場合、bos_tokenとeos_tokenをどう設定するべきかに議論がある模様

Aratako@Aratako_LM

メニューを開く

量子化したけどllama_model_load: error loading model: error loading model vocabulary: cannot find tokenizer merges in model fileと言われて動かなかった。

mutaguchi@mutaguchi

6月12日(水) 7:49

メニューを開く

sarashinaのtokenizerの挙動が謎すぎたけど、なんだかわかってきた気がする

あるふ@alfredplpl

6月12日(水) 1:20

メニューを開く

返信先:@kohya_techそのうち12万9000行はT5のtokenizer.jsonでした笑

動詞@IMG_5955

6月11日(火) 12:30

メニューを開く

GPTのtokenizerが公式APIになくて、Pythonのtiktokenが公式でも勧められているトークンIDと文字列を対応づけたくてどうやって受け渡そうかと思っていたが、PyCall.jlからPythonの関数を呼び出す方法がシームレスすぎて、Pythonの文法に全く立ち入らずにコーディングできた多対多対応だった pic.twitter.com/9jyeSpuOSG

YTOK_cp@CpYtok

6月10日(月) 22:44

メニューを開く

tiktokenって名前からしてトークン数をかぞえるツールなのかと思ってたけど実はトークナイザーだったのね Hugging Face tokenizerのトークン数かぞえるために危うくインストールするところだった普通にtorch.numel()で数えることができた

くるる🍃✨🌸🍑🫧@currnya

6月9日(日) 2:29

メニューを開く

よって、 p = AutoPipelineForText2Image.from_pretrained(...) print(type(p.tokenizer), type(p.text_encoder)) すれば実体が見えて、それぞれ CLIPTokenizer と CLIPTextModel なので、テキスト埋め込みは CLIP で作ってるんだな、と分かった。

derwind@s_derwind

6月9日(日) 0:39

メニューを開く

全部ポータブルなTokenizer使って学習してくれてあればner……(願望)

n@it_is_a_niceday

6月8日(土) 15:50

メニューを開く

#ScalaMaturi Tokenizer問題の回避中々大変……

n@it_is_a_niceday

6月8日(土) 15:41

メニューを開く

公式のqwen2-7BのGGUFは手元のllama.cppだと unknown pre-tokenizer type:qwen2 のエラーで起動出来ないね😑 再量子化されるのを待つか😅

競馬AItuber Haruka@haruka_umajou

6月7日(金) 9:57

メニューを開く

Tokenizerの比較 - qiita.com/nishiha/items/…

moritalous | Kazuaki Morita@moritalous

6月7日(金) 6:50

メニューを開く

なでしこ3をLSPでVScode楽になったりしないかなと思ったけど、本体のtokenizer/parser流用はむりっぽいな。可能な限りエラーで中断せず全体を検証できないと不便だし、build-in含めたpluginの命令をcommand.jsonの形でplugin自身から取り込めないと厳しそう。

てぃふと@うぇいく@weykt

6月5日(水) 22:33

メニューを開く

Qdrantのfull-text indexingの tokenizerオプションでmultilingualを指定しているが、動いている気がしないビルドに含めなきゃいけないっぽいけど、開発用のコンテナだしなー。コンテナオプションか何かにあるんだろうか

首無しキリン@Kill_In_Sun

6月2日(日) 20:07

メニューを開く

transformers で tokenizer をモデルから取得する処理をよく見るんだがあれは一体何をしているんだろうか

hawksnowlog@hawksnowlog

5月29日(水) 14:45

メニューを開く

やっぱCLIPのTokenizer、日本語ダメかも。たぶんbertベースだと思うんだよね pic.twitter.com/N4gf2dBXxR

あるふ@alfredplpl

1
3
5

5月27日(月) 17:53

メニューを開く

返信先:@alfredplplなんとなく、追加であればtokenizerに追加して継続学習でいけそうな……

甘木きょこ@8hmVmEGJ6nFyUE5

5月27日(月) 14:36

メニューを開く

LMのtokenizerに入っていない文字ってどう処理されるの？バイト列として処理されるの？

あるふ@alfredplpl

5月27日(月) 14:19

メニューを開く

雑な実装はこんな感じ。Cohereのtokenizerは"("と"(("が別になるみたいなので、" ( ( "のように括弧の周りにスペースを入れる必要がある。 pic.twitter.com/OkoO03B1NR

Kohya Tech@kohya_tech

1
1

5月25日(土) 8:39

メニューを開く

tokenizer_config.json を ollama の Modelfile に変換する仕組みって無いのかしら? chat_template まわりのベストプラクティスが整備されてなくて新しいモデルを試すのがちょっとしんどい

くるる🍃✨🌸🍑@currnya

5月24日(金) 2:30

メニューを開く

#DeepSpeedJP やっぱりtokenizerも更新したくなってきますね（私はまだ手を出せていないけど・・・）

YOSHIFUJI Naoki@LWisteria

5月23日(木) 18:43

メニューを開く

Mistral-7B-Instruct-v0.3 ・語彙サイズを32768に拡張・v3 Tokenizerをサポート・function callingをサポートしか書かれていませんが、ミストラルの0.3です Baseモデルも公開されてますが、そっちは・語彙サイズを32768に拡張しか書かれてません huggingface.co/mistralai/Mist…

webbigdata@webbigdata

1
1

5月23日(木) 9:21

メニューを開く

transformersのRobertaも同じみたいですね(特殊トークンの文字は少し違いますが…) kaggle で<sep>トークンをたくさんくっつけた時に影響が出ないのか疑問だったのですが… tokenizerの__call__のコードを読んでて関連する処理に関するコードは見つけたのですが、疲れた+時間がないので終わりにします pic.twitter.com/FAZikC64da

moto@moto09486481600

5月23日(木) 0:08

メニューを開く

今日はTokenizerの学習走らせて、帰宅します。夜通し頑張れCPU。

Daiki Yokokawa @ 家庭医診断+AI@DaikiYokokawa

5月21日(火) 23:18

メニューを開く

XユーザーのAixileさん: 「gpt-4o で使われたo200k_base tokenizer の日本語の部分・・・完全に5ちゃんねる・・・ pic.twitter.com/LJXhdJQcJI」 / X x.com/_aixile/status…

Aixile@_aixile2024年5月14日

gpt-4o で使われたo200k_base tokenizer の日本語の部分・・・完全に5ちゃんねる・・・

Kei Nishikawa@KeiNishikawa3

5月21日(火) 4:36

メニューを開く

Geminiはいつになったら、Tokenizerを見れるようにしてくれるのだろうか...わかるのはトークン数（課金）のみというのがアレだ... platform.openai.com/tokenizer

Hirotaka Niisato@hirotakaster

5月18日(土) 16:59

メニューを開く

fastchatモジュール内でtokenizeする際、add special token=falseを指定していないために、 (使っていたtokenizerでは)promptの最後にeosトークンが自動挿入されてしまう点が問題だったことが分かりました。

畠山　歓　Kan Hatakeyama@kanhatakeyama5月16日(木) 8:56

temperature=0.1 などの生成設定を同じにしたつもりなのに、ベンチマークプログラム内では、モデルがおバカになる(？)挙動が発生しています。プロンプトテンプレートや内部挙動など、諸々の要素を調べ中です。

畠山　歓　Kan Hatakeyama@kanhatakeyama

5
15

5月16日(木) 17:28

メニューを開く

tokenizerの状態管理が難しいってちゃんと言える人。すごい #rubykaigi #rubykaigiB

kaneko.y@spikeolaf

5月16日(木) 14:17

メニューを開く

日本語のtokenizerがすごく良くなってる？

すし@sushi_chan_sub

5月15日(水) 15:40

メニューを開く

gpt-4oは特に長文要約が良くなったと思う。tokenizerが日本語良くなった結果だろうか

TSUZUKIA@tsuzukia_prgm

5月15日(水) 13:28

メニューを開く

Tokenizerと遠くないさで踏める

かもリバー@xcloche

5月15日(水) 12:48

メニューを開く

GPT-4oはtokenizerの改良で日本語が40%多く読めるようになったから実質179k tokenかな

もとそ@motoso

5月15日(水) 12:46

メニューを開く

openaiの公式？Tokenizer って出てたのか。 platform.openai.com/tokenizer

あとやす@a_yasui

5月15日(水) 11:41

メニューを開く

gpt4oのtokenizerがねらーっぽいという話題

薬味@horseradish_ie

5月15日(水) 9:41

メニューを開く

ZeTT, Zero-Shot Tokenizer Transfer トークナイザーと LLM の依存関係を取り去る研究 arxiv.org/html/2405.0788… github.com/bminixhofer/ze…

Benjamin Minixhofer@bminixhofer2024年5月14日

Introducing Zero-Shot Tokenizer Transfer (ZeTT) ⚡ ZeTT frees language models from their tokenizer, allowing you to use any model with any tokenizer, with little or no extra training. Super excited to (finally!) share the first project of my PhD🧵

ぬこぬこ@schroneko

5月15日(水) 7:06

メニューを開く

GPT4o tokenizerに2ch由来の語彙が多い件は難しい問題で、wikipediaやECサイトのナビゲーションリンク等も頻出語彙として獲得されがちです。最新のllm-jp-tokenizer v3ではUnigramモデルで獲得した語彙を形態素解析辞書と突合して単語らしいものを優先して登録しています。 drive.google.com/file/d/1-UmeD5…

hiroshi matsuda@hmtd223

2024年5月14日

メニューを開く

gpt-4o で使われたo200k_base tokenizer の日本語の部分・・・完全に5ちゃんねる・・・ pic.twitter.com/5qQe1Mwd3Y

2024年5月14日

メニューを開く

RWKV world ベース tokenizer で, スケールする Exact dedup のSuffix Array 構築を極めました. 民生 PC なら 100 TB くらいの日本語データ, 富岳なら 10 PB くらいはいけるよ🤗 > LLM 日本語データセット(コーパス)構築向け: C++ Exact dedup at scale(Suffix Array 構築編) zenn.dev/syoyo/articles…

syoyo.eth 🌸 レイトラ ® 🐯 6 周年 🎉@syoyo

2

2024年3月4日

トレンド4:58更新

20位まで見る

人気ポスト

という事で、ちょっと前に入院してたのですが、もうすっかり元気です😊 というか、退院直後から元気です！！引き続き頑張りますー！！

和菓子屋の包装紙、こんなに印刷の匂いが強いのに嫌な気持ちになるどころか「あ〜」ってなるの、なんでだろう。

これ着てると高確率で「ワンピースどこの？」って聞かれるUNIQLO:Cのクレープジャージーワンピース👗もう暑すぎてこれかエアリズムしか着れない〜🥵☀️

隣の席の阪神ファン、球場にゴミ放置して帰ってんけどまじでマナー悪すぎ💢💢💢 これやから阪神ファンは💢💢💢

え、マジで？

お友達とドナルドのぬいぐるみ持って開園待ちしてたら「あれ？僕のこと好きなの？」って来たから 2人でそうだよ~~~！！！って身振り手振りしてたらファンサエグすぎてここに2人のドナオタの屍が爆誕しました┏┛墓┗┓

【ご報告】私事ですが、かねてよりお付き合いさせて頂いておりました大和田南那さんと入籍致しました。 2人で暖かい家庭を築いていけるよう精進しますので夫婦共々宜しくお願い致します。 youtube.com/watch?v=fyEHnd…

どっちかあげるって言われたんやけどこんなん普通に諭吉やんな？

これ見たあと意識無くなって救急車呼ばれたらしい　いま通夜

不眠症で限界OLの私が、秒で寝落ちしたアイテムまとめました✍️保存して眠れない時ためしてみて。私が1番おすすめなのは…

電車遅延（在来線、私鉄、地下鉄）

北海道東北関東中部近畿中国四国九州

遅延している路線はありません

全国の運行情報（Yahoo!路線情報）

よく使う路線を登録すると遅延情報をお知らせ　Yahoo!リアルタイム検索アプリ

Yahoo!リアルタイム検索アプリ