Scaling Laws

更新日:2025年12月18日

正式タイトル:Scaling Laws for Neural Language Models

著者:Kaplan, McCandlish, Henighan, Brown, Chess, Child, Gray, Radford, Wu, Amodei

発表年:2020年

掲載:arXiv preprint

所属:OpenAI

原著論文:arXiv:2001.08361

1. 概要

本論文は、言語モデルの性能(テスト損失)がモデルサイズ、データセットサイズ、計算量のそれぞれに対してべき乗則(power law)に従うことを発見した。大規模モデル開発の理論的指針を提供し、GPT-3などの巨大モデル開発を正当化した重要な論文である。

2. 研究の背景

大規模言語モデルの開発において、モデルサイズ、データ量、計算量をどのようにバランスさせるべきかは経験的な試行錯誤に依存していた。性能向上のためにリソースをどこに投入すべきか、理論的な指針がなかった。また、スケールアップによる性能向上がいつ飽和するのかも不明だった。

3. 提案手法

モデルサイズ(N: パラメータ数)、データセットサイズ(D: トークン数)、計算量(C: FLOP数)を系統的に変化させ、言語モデルのテスト損失との関係を調査した。10^7から10^10パラメータまでの広範囲で実験を行い、べき乗則の存在を検証した。損失Lは、L(N) ∝ N^(-0.076)、L(D) ∝ D^(-0.095)、L(C) ∝ C^(-0.050)の形で近似できることを示した。

4. 実験結果

テスト損失はN、D、Cのそれぞれに対してべき乗則に従うことを発見した。計算予算が固定の場合、最適なモデルサイズとデータサイズの比率が存在することを示した。具体的には、計算予算を10倍にする場合、モデルサイズを5.5倍、データサイズを1.8倍にするのが最適とされた。また、モデルの形状(深さと幅の比率)は性能に大きな影響を与えないことも発見された。

5. 意義と影響

本論文は大規模モデル開発の理論的指針を提供した。GPT-3の開発はこの知見に基づいて行われた。後のChinchillaスケーリング則との比較研究を促進し、より効率的なモデル学習の研究が進んだ。Chinchilla論文では、本論文が過小評価していたデータの重要性が指摘され、より多くのデータで小さめのモデルを学習する方が効率的であることが示された。

6. 関連論文

論文関係
GPT-3スケーリング則を実践
LLaMAChinchilla則に基づく効率化
参考文献
[1] Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍