ポスト

乗算と加算に分けてたけど、FMA; A * B + C があるんだった。あとrとgが逆転してた。それから私はA成分を無視する32bit RGB形式を使ってますた。そちらは24bit RGBですかね…? pic.twitter.com/7qL2fJjYe9

メニューを開く

はぇ~@haxe

みんなのコメント

メニューを開く

24bitのデータを使ってますね。マスクの並びを変えることと、元データへの上書きをやめることで24bitに対応させることができました。 1ピクセルずつ処理する場合と比べて3.1倍ほど早かったです。データの処理方法によってここまで差が出るとは思いませんでしたね。 pic.twitter.com/jJfo2XKeqp

メニューを開く

というわけで、32bit RGB形式で動作確認済みです。4pixel同時に処理するSSE2版と16pixel同時に処理するAVX-512版です。_mm512_set_1to16_psは命令っぽく見えて違うので、SSE2より命令数レジスタ数が減っているという。 半精度演算もオーバーフローしないので、AVX-512は32pixel同時もできそうかなー? pic.twitter.com/uAIfWiLsNm

はぇ~@haxe

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ