AlphaGo Zero

更新日:2025年12月18日

正式タイトル:Mastering the Game of Go without Human Knowledge

著者:Silver, Schrittwieser, Simonyan, Antonoglou, et al.

発表年:2017年

掲載:Nature

所属:DeepMind

原著論文:Nature (2017)

1. 概要

AlphaGo Zeroは、人間の棋譜を一切使用せず、ルールのみから自己対戦で学習する囲碁AIである。AlphaGo Leeに100戦100勝を達成し、人間の知識なしでAIが超人的な能力を獲得できることを実証した。タブラ・ラサ(白紙の状態)からの学習という、AGI研究の重要な方向性を示した。

2. 研究の背景

AlphaGoは人間の棋譜データに依存しており、人間の知識を超えることには限界があるとも考えられた。また、大量の棋譜データ収集のコストと、人間のバイアスの影響が課題だった。純粋に自己学習のみで超人的性能を達成できるかが問われていた。

3. 提案手法

AlphaGo Zeroは大幅に簡略化されたアーキテクチャを採用した。方策と価値を1つのネットワーク(デュアルヘッド)で出力し、残差接続を持つより単純なResNetを使用する。MCTSも簡略化し、ロールアウトを廃止した。学習はランダムな重みから開始し、自己対戦のみで行う。MCTSの探索結果を方策の教師信号として使用する。

4. 実験結果

AlphaGo Lee(イ・セドルに勝利したバージョン)に100戦100勝を達成した。学習開始から40日でAlphaGo Master(60連勝バージョン)を超える性能に到達した。人間とは異なる独自の戦略(定石の再発明、新しい布石)を発見した。

5. 意義と影響

AlphaGo Zeroは、人間の知識なしでAIが超人的な能力を獲得できることを実証した。タブラ・ラサからの学習という、AGI(汎用人工知能)研究の重要な方向性を示した。AlphaZero(チェス、将棋への汎化)、MuZero(モデルベース強化学習)など後続研究に発展した。

6. 関連論文

論文関係
AlphaGo人間知識ベースの前身
ResNetネットワーク構造
参考文献
[1] Silver, D., et al. (2017). Mastering the Game of Go without Human Knowledge. Nature.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍