Word2Vec

更新日:2025年12月18日

正式タイトル:Efficient Estimation of Word Representations in Vector Space

著者:Mikolov, Chen, Corrado, Dean

発表年:2013年

掲載:ICLR 2013 Workshop

所属:Google

原著論文:arXiv:1301.3781

1. 概要

Word2Vecは、大量のテキストから効率的に単語ベクトル(分散表現)を学習する手法である。「king - man + woman = queen」のような単語間の意味的・文法的関係がベクトル演算で表現できることを示し、自然言語処理の基盤技術となった。

2. 研究の背景

従来の自然言語処理では、単語をone-hotベクトルやn-gramで表現していたが、単語間の意味的関係を捉えることができなかった。分散表現(distributed representation)の研究は存在したが、大規模データへの適用は計算コストの面で困難だった。

3. 提案手法

Word2Vecは2つのモデルを提案した。CBOW(Continuous Bag of Words)は周囲の単語から中心の単語を予測する。Skip-gramは中心の単語から周囲の単語を予測する。計算効率を高めるため、Negative SamplingやHierarchical Softmaxを導入した。数十億語のコーパスでも効率的に学習できる。

4. 実験結果

「king - man + woman = queen」のような単語アナロジー(類推)タスクで、単語間の意味的・文法的関係がベクトル演算で表現できることを示した。Syntactic(文法)とSemantic(意味)の両方のアナロジーで高い精度を達成した。

5. 意義と影響

Word2Vecは単語埋め込みの概念を普及させ、自然言語処理の基盤技術となった。GloVe、FastTextなど多くの派生手法を生んだ。BERT、GPTなどの事前学習モデルにつながる重要な一歩となった。現在も多くのNLPアプリケーションで単語埋め込みが使用されている。

6. 関連論文

論文関係
BERT文脈を考慮した埋め込みへの発展
LSTM系列モデルとの組み合わせ
参考文献
[1] Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍