GPT-2

更新日:2025年12月18日

正式タイトル:Language Models are Unsupervised Multitask Learners

著者:Radford, Wu, Child, Luan, Amodei, Sutskever

発表年:2019年

掲載:OpenAI Blog / Technical Report

所属:OpenAI

原著論文:OpenAI Technical Report

1. 概要

GPT-2は15億パラメータの大規模言語モデルである。タスク固有のファインチューニングなしで、ゼロショットで多様なタスクを解けることを示した。大規模モデルの可能性を世界に示し、AI倫理に関する議論を喚起した画期的論文である。

2. 研究の背景

従来の自然言語処理では、各タスクに対して個別のモデルを学習する必要があった。教師あり学習のためのラベル付きデータ収集はコストが高く、汎用的な言語理解には限界があった。GPT-1は事前学習-ファインチューニングの有効性を示したが、ファインチューニングなしでタスクを解く能力は限定的だった。

3. 提案手法

GPT-2は15億パラメータのTransformer Decoderモデルを、WebTextと呼ばれる800万ウェブページ(40GB)のテキストで学習した。多様で高品質なウェブテキストを収集するため、Redditで3カルマ以上のリンクのみを使用した。モデルは単純な言語モデリング目標(次の単語予測)で学習されたが、暗黙的にさまざまなタスクを学習することが示された。

4. 実験結果

8つの言語モデリングベンチマークのうち7つで最先端を達成した。読解(CoQA)、要約(CNN/Daily Mail)、翻訳(WMT)などのタスクでも、明示的な学習なしに一定の性能を示した。特に、プロンプトの形式を工夫することで、タスク固有の学習なしでも意味のある出力を生成できた。

5. 意義と影響

GPT-2は大規模言語モデルの可能性を世界に示した論文である。当初は悪用の懸念から完全なモデルの公開が見送られ、AI倫理に関する議論を喚起した。この「段階的公開」のアプローチは、その後のAI開発における責任ある公開のモデルとなった。GPT-3、ChatGPTへの道を開き、現在のLLMブームの端緒となった。

6. 関連論文

論文関係
Attention Is All You Need基盤アーキテクチャ
GPT-3後継モデル
BERT同時期の双方向モデル
参考文献
[1] Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍