ポスト

ALUとの比較がしたいのでfloatを使うことにした.行列-行列積でベクトル命令を試したい. まずはリファレンス用にナイーブな実装と,ブロック化してベクトル命令が使いやすい形に変形したものを用意.この時点で結構速度に差がついている. pic.twitter.com/XWYS6nAJAF

メニューを開く

とりさん@TypedTypelessTy

みんなのコメント

メニューを開く

コンパイラに細々注文を付けたら5.8msecまで高速化できた. pic.twitter.com/hLJBFI49Q0

とりさん@TypedTypelessTy

メニューを開く

メインマシンだと0.5msecと爆速.auto vectorizationが効いてそうなので,objdumpで確認.なんかやってるっぽい. pic.twitter.com/HeZ2BNT2Qo

とりさん@TypedTypelessTy

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ