DeepSeek-V3

更新日:2025年12月18日

正式タイトル:DeepSeek-V3 Technical Report

著者:DeepSeek-AI

発表年:2024年

掲載:arXiv preprint

所属:DeepSeek(中国)

原著論文:arXiv:2412.19437

1. 概要

DeepSeek-V3は、6710億パラメータのMixture of Experts(MoE)アーキテクチャを採用した大規模言語モデルである。わずか557万ドルという低コストでGPT-4、Claude 3.5 Sonnetと同等以上の性能を達成し、AI開発の民主化に大きく貢献した。

2. 研究の背景

大規模言語モデルの学習には莫大な計算コストがかかり、先端モデルの開発は一部の大企業に限られていた。GPT-4の学習コストは1億ドル以上と推定される中、効率的な学習手法とコスト効率の良いモデル設計が求められていた。

3. 提案手法

DeepSeek-V3は複数の効率化技術を導入した。Multi-head Latent Attention(MLA)は、Key-Valueキャッシュを圧縮し推論効率を向上させる。DeepSeekMoEは、より細粒度のExpert分割と共有Expertの導入により、MoEの効率を改善した。FP8混合精度学習と効率的なパイプライン並列化により、学習コストを大幅に削減した。14.8兆トークンで学習された。

4. 実験結果

GPT-4、Claude 3.5 Sonnetと同等以上の性能を、わずか557万ドルの学習コストで達成した。数学(MATH 500: 90.2%)、コーディング(HumanEval: 92.7%)、推論タスクで特に優れた性能を示した。日本語を含む多言語でも高い性能を発揮した。

5. 意義と影響

DeepSeek-V3はAI開発の民主化に大きく貢献した。中国発のオープンソースモデルとして、グローバルなAI競争に影響を与えた。効率的な学習手法の重要性を再認識させ、「計算資源の多さ」だけが勝負ではないことを示した。DeepSeek-R1などの後続モデルも注目を集めている。

6. 関連論文

論文関係
Mixture of Experts基盤アーキテクチャ
Attention Is All You NeedTransformerの基盤
LLaMAオープンソースLLMの先駆け
参考文献
[1] DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍