ポスト

昨夜にClaude 3.5がリリースされたので見てみる。GPT-4oやGemini 1.5と比べると、他社モデルと横並びで比較できるようにしており、最もフェアに性能を発表している。表は各種ベンチマークのスコアだが、性能誤認につながるプロンプトはその種類が明示されている。 www-cdn.anthropic.com/fed9cc193a14b8… pic.twitter.com/pKS7Nh91y1

メニューを開く

オスマン帝国買うて@4niruddha

みんなのコメント

メニューを開く

テキストのベンチマークはこれまでMMLUが比較に用いられてきたが、既にサチりつつありGPQA(Diamond)に移り競い合うが、画像のマルチモーダルは伸びしろがあり性能比較では今後注目がMMMUに移るであろうところ。ここはGPT-4oに迫る性能をClaude 3.5 Sonnetは出している。 pic.twitter.com/EeLmZlqhGt

オスマン帝国買うて@4niruddha

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ