人気ポスト

arxiv.org/abs/2409.16997 INT-FlashAttention: Enabling Flash Attention for INT8 Quantization > FlashAttention のフォワードワークフローと互換性のある最初の INT8 量子化アーキテクチャである INT-FlashAttention を紹介。Ampere GPU での FlashAttention の推論速度が大幅に向上。 気になる

メニューを開く

ぬこぬこ@schroneko

みんなのコメント

メニューを開く

そもそも今までできてなかったんだ

飼い猫@バーチャル化け猫@kaineko

ほかの人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ