- すべて
- 画像・動画
並べ替え:新着順
BF-16:クリティカルに頼らなくてもレオン撃破間に合うやん、ってことで最終ターンやり直してMVP厳選。ミステールでTec+2からAtk+2へ変更。これでBF-17はミステールでTec+1でよいのでターン制限がない分楽に。 ※金のドゼウでドーピング時に小星は切り捨てられるためTec+2にしても小星1個無駄になる
VRAM 24GBのGPUで、SDXLのCNを1024x1024でトレーニングできた!! もはやmixed precisionすらできないので全部bf16でやった。 試作したモデルはoutpaint CN(外に向かって拡張)で、とりあえずできたんだけどかたらぎさんのinpaint CNの方がoutpaintでも優秀だった😅 ※テストの内容などはALTに。 pic.twitter.com/GWbRgcNo6V
対応する演算精度については、FP16(16bit浮動小数点)、BF16、INT8(8bit整数)、INT4(4bit整数)、INT2(2bit整数)と変わっていない> GPU界隈では 2bit は既に標準っぽいぞマジか…? ってか FP8 は何処に行った!?
また、Instinct MI325Xを8基搭載した「Instinct MI325X Platform」では、理論ピーク性能はBF16およびFP16で最大10.4PFLOPS、メモリは最大2.3TBを装備。Instinct MI325X Platform 1台で1兆パラメータのAIモデルを格納できるとしており、
Core Ultraに搭載されたXe-LPGでは未搭載だったXMXが搭載されたことも大きな特徴で、FP16/BF16、INT8/INT4/INT2など、さまざまな精度のデータタイプの行列演算を一度に処理することが可能になる。FP16では2,048命令を1クロック周波数で、INT8では4,096命令を1クロックで処理できる。
もうNodeで対応してくれてるのありがたや。xformersなしだと色褪せ低画質化しちゃうのでほぼ必須。 github.com/kijai/ComfyUI-… 枝刈り済のweightならVRAM16GBでもギリいける。OutOfMemoryでたらdtypeをbf16にしよう。 huggingface.co/Kijai/DynamiCr…
\ / Japan Drone 2024 / \ 📅 6/5(水) - 6/7(金) 📍幕張メッセ 展示ホール6 BF-16 最新のネットワークセキュリティについて説明いたします。 wolfSSLのご使用を希望される方には、弊社エンジニアより直接ガイドいたします。 ssl.japan-drone.com pic.twitter.com/Kvv0WxRSGV
ケース・バイ・ケースとは思いますが、 TransformerEngineでbf16 to fp8 に変更した際の現実的な速度向上は、5/4倍くらい? databricks.com/blog/coreweave… 40日の学習が30日くらいで終わるイメージ。 pic.twitter.com/MzkhKM2pcP
kohyaさんのスクリプトを参考にfull_fp16みたいな実装にしたらやっと動いた!! 消費VRAM 22868MiBだけど💦 多分fp16よりbf16の方が良い気がするので、それで試してどうなるかかなあ?
最近はH100/A100ばかり使っているので気付かなかったけど、TuringアーキテクチャのT4でもbfloat16が使えるようになっている。 なにが起きたのかはよく分からない(多分torch==2.3.0内部でbf16が実装されたのだろうけど、documentationが見当たらない) pic.twitter.com/akZHtRYMG3
open sora 完全なbf16(モデルもbf16)で学習しながら Attentionのsoftmaxだけfp32で計算してる 面白い Attentionのsoftmaxの精度下げると一気にnanに飛びやすくなる
#まほやく をプレイしよう🧙 アプリをインストールして、下記招待コードを入力! マナ石50個とSSR確定11連ガチャチケットをもらおう♪ 招待コード【bf16e28f92bc】 #まほやく招待キャンペーン @mahoyaku_info mahoyaku.com/store pic.twitter.com/Ww6ozAi86E
Neoverseシリーズじゃない独自のアーキテクチャなのも面白いよね。元々、SVEとか利用が少ないものは外しつつ、BF16とかint8もCPUに実装して消費電力下げつつ、推論性能をそれなりに稼ぐ構成 coelacanth-dream.com/posts/2022/05/…