Constitutional AI
更新日:2025年12月18日
1. 概要
Constitutional AI(CAI)は、明示的な原則(Constitution)に基づいてAI自身がフィードバックを生成する手法である。人間のフィードバックへの依存を減らしながら、有害性を低減したモデルを学習できることを示した。Anthropic社のClaudeモデルの安全性技術の基盤となった。
2. 研究の背景
RLHFは人間のフィードバックに依存するため、スケーラビリティとコストに課題があった。また、人間のラベラーの価値観や判断のばらつきが学習に影響を与える問題があった。より一貫性があり、スケーラブルな安全性向上手法が求められていた。
3. 提案手法
CAIは2段階のプロセスで構成される。第1段階(Supervised Learning)では、有害な出力を生成させ、次にAIに「憲法」に基づいて自己批評と修正を行わせる。この修正された出力でファインチューニングする。第2段階(RL from AI Feedback)では、AI自身が生成した選好データを用いて強化学習を行う。憲法には「有害な情報を提供しない」「人種差別的でない」などの原則が含まれる。
4. 実験結果
人間のフィードバックなしで、有害性を大幅に低減したモデルを学習できることを実証した。helpfulnessを維持しながらharmlessnessを向上させることに成功した。従来のRLHFと同等以上の安全性を、より少ない人間のラベリングで達成した。
5. 意義と影響
CAIはAIの自己改善によるアライメント手法の先駆けとなった。Anthropic社のClaudeモデルの安全性技術の基盤として使用されている。人間のフィードバックのスケーラビリティ問題に対する解決策を提示し、自己改善型AIの研究を促進した。
6. 関連論文
| 論文 | 関係 |
|---|---|
| InstructGPT | RLHFの基盤 |
| PPO | 強化学習アルゴリズム |
参考文献
[1] Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
[1] Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
関連書籍
リンク