GPT-3
更新日:2025年12月18日
1. 概要
GPT-3は1750億パラメータという当時最大規模の言語モデルである。タスクの説明と少数の例示(few-shot)を与えるだけで、ファインチューニングなしに多様なタスクを解く「in-context learning」能力を示した。プロンプトエンジニアリングという新分野を確立し、AI産業の転換点となった。
2. 研究の背景
GPT-2で示されたゼロショット学習能力は限定的であり、多くのタスクでファインチューニングが必要だった。モデルのスケールアップにより、ファインチューニングなしでより高い性能が達成できるかが問われていた。また、大量のラベル付きデータを必要としない学習パラダイムの実現が期待されていた。
3. 提案手法
GPT-3は1750億パラメータのTransformer Decoderモデルを、約3000億トークンの多様なテキストで学習した。本論文の核心は、ゼロショット、ワンショット、フューショットの3つの設定で評価を行い、プロンプトに例示を含めることでタスク性能が大幅に向上することを示したことである。これを「in-context learning」と呼び、重みの更新なしにコンテキストから学習する能力として特徴づけた。
4. 実験結果
多くのNLPベンチマークでファインチューニングされた小規模モデルと同等以上の性能を、few-shotで達成した。特に翻訳、質問応答、算術で顕著な能力を示した。SuperGLUEでは、few-shotでBERTのファインチューニング性能を超えた。また、記事生成、コード生成、算術計算など、学習時に明示的に訓練していないタスクでも高い性能を示した。
5. 意義と影響
GPT-3はプロンプトエンジニアリングという新分野を確立した。APIを通じた商用利用が始まり、AI産業の転換点となった。開発者はモデルを学習することなく、プロンプトを工夫するだけでAI機能を実装できるようになった。後のChatGPT、GPT-4の基盤となり、現在のLLM産業の礎を築いた。
6. 関連論文
| 論文 | 関係 |
|---|---|
| GPT-2 | 前身モデル |
| Scaling Laws | スケーリング則の検証 |
| InstructGPT | RLHF適用版 |
| Chain-of-Thought | 推論能力の拡張 |
[1] Brown, T., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
[2] arXiv:2005.14165
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。