Mixture of Experts

更新日:2025年12月18日

正式タイトル:Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

著者:Shazeer, Mirhoseini, Maziarz, Davis, Le, Hinton, Dean

発表年:2017年

掲載:ICLR 2017

所属:Google

原著論文:arXiv:1701.06538

1. 概要

Mixture of Experts(MoE)は、複数の専門家ネットワーク(Expert)とゲーティングネットワークを組み合わせ、入力ごとに少数の専門家のみをアクティブにするアーキテクチャである。パラメータ数を増やしながら計算コストを抑制し、GPT-4、Mixtral、DeepSeekなど現代の最先端LLMに採用される重要技術となった。

2. 研究の背景

ニューラルネットワークの性能向上にはモデルサイズの拡大が有効だが、計算コストはパラメータ数に比例して増加する。従来の「密な」ネットワークでは、すべてのパラメータが常にアクティブになるため、巨大モデルの学習・推論は計算コストが膨大になる問題があった。

3. 提案手法

MoEレイヤーは、複数のFeed-Forward Network(Expert)とゲーティングネットワークで構成される。ゲーティングネットワークは入力に基づいて各Expertへの重みを出力し、上位k個のExpertのみをアクティブにする(通常k=1または2)。スパースゲーティングにより、大部分のパラメータは各入力に対して使用されない。また、Expert間の負荷バランスを確保するための補助損失を導入した。

4. 実験結果

1370億パラメータのモデルを、従来の密なモデルの数分の一の計算コストで学習できることを示した。機械翻訳と言語モデリングで最先端の性能を達成した。同等の計算コストで、より多くのパラメータを持つモデルを学習・推論できることを実証した。

5. 意義と影響

MoEはモデルのスケーリングと効率性の両立を可能にした重要なアーキテクチャである。GPT-4(推定)、Mixtral 8x7B、DeepSeek-V2/V3など、現代の最先端LLMに広く採用されている。Switch Transformer、GLaM、Expert Choiceなど多くの派生研究を生んだ。

6. 関連論文

論文関係
Attention Is All You NeedTransformerとの組み合わせ
DeepSeek-V3MoEの最新応用
参考文献
[1] Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
[2] arXiv:1701.06538

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍