Mixture of Experts
更新日:2025年12月18日
1. 概要
Mixture of Experts(MoE)は、複数の専門家ネットワーク(Expert)とゲーティングネットワークを組み合わせ、入力ごとに少数の専門家のみをアクティブにするアーキテクチャである。パラメータ数を増やしながら計算コストを抑制し、GPT-4、Mixtral、DeepSeekなど現代の最先端LLMに採用される重要技術となった。
2. 研究の背景
ニューラルネットワークの性能向上にはモデルサイズの拡大が有効だが、計算コストはパラメータ数に比例して増加する。従来の「密な」ネットワークでは、すべてのパラメータが常にアクティブになるため、巨大モデルの学習・推論は計算コストが膨大になる問題があった。
3. 提案手法
MoEレイヤーは、複数のFeed-Forward Network(Expert)とゲーティングネットワークで構成される。ゲーティングネットワークは入力に基づいて各Expertへの重みを出力し、上位k個のExpertのみをアクティブにする(通常k=1または2)。スパースゲーティングにより、大部分のパラメータは各入力に対して使用されない。また、Expert間の負荷バランスを確保するための補助損失を導入した。
4. 実験結果
1370億パラメータのモデルを、従来の密なモデルの数分の一の計算コストで学習できることを示した。機械翻訳と言語モデリングで最先端の性能を達成した。同等の計算コストで、より多くのパラメータを持つモデルを学習・推論できることを実証した。
5. 意義と影響
MoEはモデルのスケーリングと効率性の両立を可能にした重要なアーキテクチャである。GPT-4(推定)、Mixtral 8x7B、DeepSeek-V2/V3など、現代の最先端LLMに広く採用されている。Switch Transformer、GLaM、Expert Choiceなど多くの派生研究を生んだ。
6. 関連論文
| 論文 | 関係 |
|---|---|
| Attention Is All You Need | Transformerとの組み合わせ |
| DeepSeek-V3 | MoEの最新応用 |
[1] Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
[2] arXiv:1701.06538
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。