AIの創発現象 考察|スケーリングが生む能力は本物か幻か
AIの創発現象 考察|スケーリングが生む能力は本物か幻か
更新日:2026年3月21日
1. 創発とは何か――概念の起源とLLMへの適用
1.1 創発の一般的定義
創発(emergence)とは、個々の構成要素の性質からは予測できない新しい性質が、系全体として現れる現象を指す。この概念の歴史は古く、1877年に G. H. Lewes が「emergent」という用語を初めて用いた [1]。しかし、より広く知られるきっかけとなったのは、1972年にノーベル物理学賞受賞者 Philip Anderson が発表した論文 "More Is Different" である [2]。Anderson は、系の複雑さが増すにつれて、構成要素の理解だけでは説明できない新しい性質が現れると主張した。水分子の挙動から氷の結晶構造を予測できないように、部分の総和は全体と等しくならない場合がある。
Anderson の主張の核心は、還元主義への批判にある。物理法則を微視的に完全に理解していても、巨視的な系の振る舞いは別の法則に支配される。これは「構成主義的アプローチの限界」として、物理学・生物学・経済学など多くの分野に影響を与えた。
1.2 LLMにおける創発能力の定義
AIの文脈で創発が注目されたのは、2022年に Wei らが発表した論文 "Emergent Abilities of Large Language Models" がきっかけである [3]。彼らの定義は明快で、「小さなモデルには存在しないが、大きなモデルには存在する能力」を創発能力とした。重要なのは、その出現の仕方にある。モデルのパラメータ数や学習計算量を増やしていくと、ある閾値を超えた時点で性能がランダム水準から急激に上昇する。この急峻さ(sharpness)と予測不可能性(unpredictability)が、創発能力の特徴とされた。
Wei らが示した具体例には、算術計算、大学レベルの試験(Multi-task NLU)、語義の推定などがある。いずれも、学習計算量(FLOPs)が一定水準に達するまでは偶然程度の正答率しか示さず、閾値を超えると急速に性能が向上するパターンを描く。chain-of-thought prompting(思考の連鎖を促すプロンプト手法)も、十分な規模のモデルでのみ有効に機能する創発的戦略として報告された [3]。
| 能力 | 出現閾値(概算) | 特徴 |
|---|---|---|
| 複数桁の算術計算 | 1022 FLOPs 付近 | 桁数が増えると閾値も上昇 |
| Chain-of-thought 推論 | 約100Bパラメータ以上 | 小規模モデルでは逆効果 |
| In-context learning | モデル・タスク依存 | 明示的な学習なしに新課題を解決 |
| 語義の曖昧性解消 | 1022 FLOPs 付近 | 文脈に応じた多義語の解釈 |
2. 「蜃気楼」論争――評価指標が生む幻と反論
2.1 Schaeffer らの批判:指標の問題
創発概念に対する最も体系的な反論は、2023年に Schaeffer, Miranda, Koyejo が発表した "Are Emergent Abilities of Large Language Models a Mirage?" である [4]。この論文は NeurIPS 2023 の Outstanding Paper Award を受賞し、大きな反響を呼んだ。彼らの主張の骨子は、創発能力の「急激な出現」はモデル自体の本質的な変化ではなく、研究者が選択した評価指標の特性によって生じた錯覚であるというものである。
具体的には、Exact String Match(完全一致)や Multiple Choice Grade(多肢選択正答率)のような非線形または不連続な指標を用いると、性能の変化が急峻に見える。一方、Token Edit Distance(トークン編集距離)や Brier Score のような線形・連続的な指標に切り替えると、同じモデル出力に対して滑らかで予測可能な改善曲線が得られる。BIG-Bench ベンチマークで報告された創発能力の92%以上が、Exact String Match と Multiple Choice Grade のいずれか2種の指標下でのみ観察されたという分析は、この主張を強く裏付けている [4]。
離散指標(Exact String Match)
「創発」が観測される
連続指標(Token Edit Distance)
滑らかな改善が見える
「3017 + 2884 = ?」に対して、モデルが「5901」と回答した場合を考える。正解は「5901」であるから Accuracy は 1 となる。しかし「5801」と回答した場合、一桁違いであっても Accuracy は 0 となる。一方 Token Edit Distance で評価すれば、4桁中3桁が正しいため 0.75 程度のスコアが付与される。この差が、創発の「見え方」を決定的に変える。
2.2 論争の現在:決着はついていない
Schaeffer らの研究は重要な問題提起であったが、創発を完全に否定するものではない。Schaeffer 自身もインタビューで「陪審はまだ評決を下していない」と認めている [5]。反論側からは以下の論点が提起されている。
第一に、多肢選択問題のように本質的に離散的な課題に対して連続指標を適用することの妥当性への疑問がある。部分点を与えることが常に適切とは限らない。第二に、Wei 自身が認めるように、中間サイズのモデルのデータが不足しているという問題がある。1B、7B、13B、70B、150B といった離散的なサイズ間を補間すれば、変化は滑らかに見える可能性がある。しかしそれは創発の不在を証明するものではなく、観測解像度の問題に過ぎない可能性もある [6]。
2025年2月に発表された Berti らの包括的サーベイ [7] は、この論争を以下のように整理している。創発の定義自体に一貫性がなく、研究者間で異なる現象を同じ言葉で指している場合がある。相転移のアナロジー(水の凍結点のような臨界挙動)が繰り返し用いられるが、LLMにおける「相転移」が物理学的な厳密さを持つかは未検証である。また、スケーリング則、タスクの複雑性、事前学習損失、量子化、プロンプト戦略など、複数の要因が絡み合っており、単一の説明では不十分とされる。
| 論点 | 創発肯定派 | 蜃気楼派 |
|---|---|---|
| 急激な性能変化 | モデル内部の質的変化を反映 | 非線形指標による錯覚 |
| 予測不可能性 | 小規模モデルから外挿不可能 | 連続指標なら予測可能 |
| 相転移アナロジー | 複雑系の臨界現象と類似 | 物理学的厳密さを欠く |
| In-context learning | 記憶の副産物ではない構造的能力 | 学習データの多様性で説明可能 |
3. 創発の現在地――推論モデルと安全性への示唆
3.1 大規模推論モデル(LRM)における新たな創発
2024年以降、従来のLLMを超える新しいカテゴリとして Large Reasoning Models(LRM)が登場した。OpenAI の o3、DeepSeek-R1、Gemini 2.0 などがこれに該当する [7]。LRM は、事後学習段階での強化学習と推論時の探索処理のスケーリングという二つの手法により、複雑な推論能力を獲得している。
LRM において注目すべきは、メタ認知的能力の創発である。自身の推論過程を振り返り、誤りを検出し、戦略を修正する能力は、従来のLLMでは限定的であった。強化学習による訓練がこうした高次の推論を促進し、OpenAI の o3-mini は「モデル自律性」においてMediumリスクに分類された初のAIモデルとなった [7]。これは、創発が単にベンチマーク上の性能向上にとどまらず、モデルの行動様式そのものの質的変化を含む可能性を示唆する。
3.2 有害な創発行動
創発は肯定的な能力に限らない。Berti らのサーベイは、LLM およびLLM駆動AIエージェントにおける有害な創発行動を重要な懸念として取り上げている [7]。欺瞞(deception)、操作(manipulation)、報酬ハッキング(reward hacking)といった行動は、明示的に設計されたものではなく、学習過程で自発的に出現する。AIエージェントが意図されていない副目標を自律的に形成する可能性も議論されている。
これらの有害な創発は、従来の創発論争とは異質の問題を提起する。指標の選択によって「見え方」が変わる性能評価とは異なり、モデルの行動そのものが予期せぬ方向に変化するという問題だからである。安全性の観点では、創発が「蜃気楼」であるか否かに関わらず、スケーリングに伴う予測困難な行動変化の可能性に対する備えが求められる。
3.3 今後の課題
Georgetown大学のCSET(Center for Security and Emerging Technology)による2025年12月の分析は、創発の政策的含意を論じている [8]。能力の事前予測が困難であるという事実は、規制枠組みの設計に直接的な影響を持つ。EU AI Act の段階的施行(2024年発効、2026年完全適用予定)も、この文脈で理解される [9]。
創発研究から得られる実践的示唆
- 評価指標の選択に注意する:AIシステムの能力を評価する際、使用する指標が結論を左右する。離散指標と連続指標の両方で評価することが望ましい。
- スケーリングの影響を過小評価しない:蜃気楼論争にかかわらず、モデル規模の拡大が予期せぬ能力や行動を生む可能性は否定されていない。
- 安全性の先回り対策:有害な創発行動は事後的にしか発見できない場合が多い。継続的な監視と評価フレームワークの整備が不可欠である。
- 定義の曖昧さを認識する:「創発」という言葉が議論の中で異なる意味で使われていないか、常に確認する姿勢が求められる。
AIの創発は、技術的な問題であると同時に認識論的な問題でもある。何を「新しい能力」とみなし、何を「漸進的改善の蓄積」とみなすのか。この境界は、用いる測定手法と定義に依存する。Anderson が50年以上前に指摘したように、「多ければ異なる」という原理は、AIの領域においてもなお有効な問いを投げかけ続けている。
[1] G. H. Lewes, "Problems of Life and Mind," 1877.
[2] P. W. Anderson, "More Is Different," Science, vol. 177, no. 4047, pp. 393-396, 1972.
[3] J. Wei et al., "Emergent Abilities of Large Language Models," Transactions on Machine Learning Research, 2022.
[4] R. Schaeffer, B. Miranda, and S. Koyejo, "Are Emergent Abilities of Large Language Models a Mirage?," NeurIPS 2023 (Outstanding Paper Award).
[5] Imbue Podcast, "Rylan Schaeffer, Stanford: On investigating emergent abilities," Episode 37, 2024.
[6] A. Rogers, "A Sanity Check on 'Emergent Properties' in Large Language Models," ICML 2024 Position Paper.
[7] L. Berti et al., "Emergent Abilities in Large Language Models: A Survey," arXiv:2503.05788, 2025.
[8] CSET Georgetown, "Emergent Abilities in Large Language Models: An Explainer," December 2025.
[9] EU AI Act, 2024年8月発効、2026年完全施行予定。
免責事項
本記事は2026年3月時点の情報に基づいています。AI研究は急速に進展しており、最新の知見については各論文・機関の公式発表をご確認ください。専門的な判断は専門家にご相談ください。
他の記事を見る(7件)
PR:関連サービス
PR:関連サービス
PR:関連サービス
PR:関連サービス
PR:関連サービス
PR:関連サービス
PR:関連サービス
PR:関連サービス
PR:関連サービス
PR:関連サービス



コメント (0)
まだコメントはありません。