はとはとブログ

　技術と学びの記録　　

はとはとプロジェクト > はとはとブログ > カテゴリー: 9.2 ベンチマーク

カテゴリー: 9.2 ベンチマーク

AIベンチマーク

AIベンチマーク比較考察｜Claude vs OpenAI 2026年最新データから見える実力差と構造的課題

2026年3月21日管理者 6.7 主要モデル比較, 9.2 ベンチマーク, 9.3 モデル比較

2026年3月時点の主要AIベンチマークを網羅的に調査し、Claude（Anthropic）とGPT（OpenAI）の性能差を定量的に比較しました。MMLU飽和問題、データ汚染、Humanity's Last Examなどの最新動向を含め、ベンチマーク自体が抱える構造的課題についても考察しています。AI選定の判断材料として参考になれば幸いです。