AlphaGo Zero
更新日:2025年12月18日
1. 概要
AlphaGo Zeroは、人間の棋譜を一切使用せず、ルールのみから自己対戦で学習する囲碁AIである。AlphaGo Leeに100戦100勝を達成し、人間の知識なしでAIが超人的な能力を獲得できることを実証した。タブラ・ラサ(白紙の状態)からの学習という、AGI研究の重要な方向性を示した。
2. 研究の背景
AlphaGoは人間の棋譜データに依存しており、人間の知識を超えることには限界があるとも考えられた。また、大量の棋譜データ収集のコストと、人間のバイアスの影響が課題だった。純粋に自己学習のみで超人的性能を達成できるかが問われていた。
3. 提案手法
AlphaGo Zeroは大幅に簡略化されたアーキテクチャを採用した。方策と価値を1つのネットワーク(デュアルヘッド)で出力し、残差接続を持つより単純なResNetを使用する。MCTSも簡略化し、ロールアウトを廃止した。学習はランダムな重みから開始し、自己対戦のみで行う。MCTSの探索結果を方策の教師信号として使用する。
4. 実験結果
AlphaGo Lee(イ・セドルに勝利したバージョン)に100戦100勝を達成した。学習開始から40日でAlphaGo Master(60連勝バージョン)を超える性能に到達した。人間とは異なる独自の戦略(定石の再発明、新しい布石)を発見した。
5. 意義と影響
AlphaGo Zeroは、人間の知識なしでAIが超人的な能力を獲得できることを実証した。タブラ・ラサからの学習という、AGI(汎用人工知能)研究の重要な方向性を示した。AlphaZero(チェス、将棋への汎化)、MuZero(モデルベース強化学習)など後続研究に発展した。
6. 関連論文
| 論文 | 関係 |
|---|---|
| AlphaGo | 人間知識ベースの前身 |
| ResNet | ネットワーク構造 |
参考文献
[1] Silver, D., et al. (2017). Mastering the Game of Go without Human Knowledge. Nature.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
[1] Silver, D., et al. (2017). Mastering the Game of Go without Human Knowledge. Nature.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
関連書籍
リンク