ポスト
gemini-2.5-flash-preview-04-17のShaberi3ベンチマーク評価を実施しました。 予想外すぎたんですが、DeepSeek-R1を超えてなんと一位です!!!! gemini-2.5-pro-expを超えているのも謎すぎる。さすがにコーディング性能ではproに負けてると思いますが、日本語性能はトップレベルに性能が高そうです pic.x.com/l7GA2pLhMO
メニューを開くgemini-2.5-flash-preview-04-17のShaberi3ベンチマーク評価を実施しました。 予想外すぎたんですが、DeepSeek-R1を超えてなんと一位です!!!! gemini-2.5-pro-expを超えているのも謎すぎる。さすがにコーディング性能ではproに負けてると思いますが、日本語性能はトップレベルに性能が高そうです pic.x.com/l7GA2pLhMO
メニューを開く