GPT-2
更新日:2025年12月18日
1. 概要
GPT-2は15億パラメータの大規模言語モデルである。タスク固有のファインチューニングなしで、ゼロショットで多様なタスクを解けることを示した。大規模モデルの可能性を世界に示し、AI倫理に関する議論を喚起した画期的論文である。
2. 研究の背景
従来の自然言語処理では、各タスクに対して個別のモデルを学習する必要があった。教師あり学習のためのラベル付きデータ収集はコストが高く、汎用的な言語理解には限界があった。GPT-1は事前学習-ファインチューニングの有効性を示したが、ファインチューニングなしでタスクを解く能力は限定的だった。
3. 提案手法
GPT-2は15億パラメータのTransformer Decoderモデルを、WebTextと呼ばれる800万ウェブページ(40GB)のテキストで学習した。多様で高品質なウェブテキストを収集するため、Redditで3カルマ以上のリンクのみを使用した。モデルは単純な言語モデリング目標(次の単語予測)で学習されたが、暗黙的にさまざまなタスクを学習することが示された。
4. 実験結果
8つの言語モデリングベンチマークのうち7つで最先端を達成した。読解(CoQA)、要約(CNN/Daily Mail)、翻訳(WMT)などのタスクでも、明示的な学習なしに一定の性能を示した。特に、プロンプトの形式を工夫することで、タスク固有の学習なしでも意味のある出力を生成できた。
5. 意義と影響
GPT-2は大規模言語モデルの可能性を世界に示した論文である。当初は悪用の懸念から完全なモデルの公開が見送られ、AI倫理に関する議論を喚起した。この「段階的公開」のアプローチは、その後のAI開発における責任ある公開のモデルとなった。GPT-3、ChatGPTへの道を開き、現在のLLMブームの端緒となった。
6. 関連論文
| 論文 | 関係 |
|---|---|
| Attention Is All You Need | 基盤アーキテクチャ |
| GPT-3 | 後継モデル |
| BERT | 同時期の双方向モデル |
参考文献
[1] Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
[1] Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
関連書籍
リンク