ポスト

llama.cppのFlash-Attentionサポートの効果をcommand-r-plus Q4_K_Mで確認。 3xRTX3090の場合、-faなしでは入力長8000トークン以上で推論時にOOMになっていたけど、18000まで行けるようになった。かなり嬉しい。 18000トークンは日本語だと2.5万文字相当。 pic.twitter.com/iuZuZDtg8F

メニューを開く

oshizo@_oshizo_

みんなのコメント

メニューを開く

生成の速度も-faでちょっと速くなる。 生成速度は入力長に線形な感じで遅くなるようで、入力長1000トークンでは12.6tpsだったところが、入力長18000では7.2tpsまで下がる... pic.twitter.com/VJuoha8GZV

oshizo@_oshizo_

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ