hatohato.jp > AI最新動向 > 主要論文 > GPT-2

GPT-2

更新日：2025年12月18日

正式タイトル：Language Models are Unsupervised Multitask Learners

著者：Radford, Wu, Child, Luan, Amodei, Sutskever

発表年：2019年

掲載：OpenAI Blog / Technical Report

所属：OpenAI

原著論文：OpenAI Technical Report

1. 概要

GPT-2は15億パラメータの大規模言語モデルである。タスク固有のファインチューニングなしで、ゼロショットで多様なタスクを解けることを示した。大規模モデルの可能性を世界に示し、AI倫理に関する議論を喚起した画期的論文である。

2. 研究の背景

従来の自然言語処理では、各タスクに対して個別のモデルを学習する必要があった。教師あり学習のためのラベル付きデータ収集はコストが高く、汎用的な言語理解には限界があった。GPT-1は事前学習-ファインチューニングの有効性を示したが、ファインチューニングなしでタスクを解く能力は限定的だった。

3. 提案手法

GPT-2は15億パラメータのTransformer Decoderモデルを、WebTextと呼ばれる800万ウェブページ（40GB）のテキストで学習した。多様で高品質なウェブテキストを収集するため、Redditで3カルマ以上のリンクのみを使用した。モデルは単純な言語モデリング目標（次の単語予測）で学習されたが、暗黙的にさまざまなタスクを学習することが示された。

4. 実験結果

8つの言語モデリングベンチマークのうち7つで最先端を達成した。読解（CoQA）、要約（CNN/Daily Mail）、翻訳（WMT）などのタスクでも、明示的な学習なしに一定の性能を示した。特に、プロンプトの形式を工夫することで、タスク固有の学習なしでも意味のある出力を生成できた。

5. 意義と影響

GPT-2は大規模言語モデルの可能性を世界に示した論文である。当初は悪用の懸念から完全なモデルの公開が見送られ、AI倫理に関する議論を喚起した。この「段階的公開」のアプローチは、その後のAI開発における責任ある公開のモデルとなった。GPT-3、ChatGPTへの道を開き、現在のLLMブームの端緒となった。

6. 関連論文

論文	関係
Attention Is All You Need	基盤アーキテクチャ
GPT-3	後継モデル
BERT	同時期の双方向モデル

参考文献
[1] Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。