ポスト

テキストのベンチマークはこれまでMMLUが比較に用いられてきたが、既にサチりつつありGPQA(Diamond)に移り競い合うが、画像のマルチモーダルは伸びしろがあり性能比較では今後注目がMMMUに移るであろうところ。ここはGPT-4oに迫る性能をClaude 3.5 Sonnetは出している。 pic.twitter.com/EeLmZlqhGt

メニューを開く

オスマン帝国買うて@4niruddha

みんなのコメント

メニューを開く

LLM的なモデルは確率的に次に来る語を予測し、生成するため、入力の途中に書かれていたことなどを忘れやすい問題がある。忘れにくさを測るためのNIAHも200k tokensあたりの性能で物忘れしにくくなっている様子が伺える。ただ、コンテキストウインドウのサイズはGeminiに大きく劣っている。 pic.twitter.com/3gZZKVKIaP

オスマン帝国買うて@4niruddha

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ