2026年3月時点の主要AIベンチマークを網羅的に調査し、Claude(Anthropic)とGPT(OpenAI)の性能差を定量的に比較しました。MMLU飽和問題、データ汚染、Humanity's Last Examなどの最新動向を含め、ベンチマーク自体が抱える構造的課題についても考察しています。AI選定の判断材料として参考になれば幸いです。
続きを読む