Word2Vec
更新日:2025年12月18日
1. 概要
Word2Vecは、大量のテキストから効率的に単語ベクトル(分散表現)を学習する手法である。「king - man + woman = queen」のような単語間の意味的・文法的関係がベクトル演算で表現できることを示し、自然言語処理の基盤技術となった。
2. 研究の背景
従来の自然言語処理では、単語をone-hotベクトルやn-gramで表現していたが、単語間の意味的関係を捉えることができなかった。分散表現(distributed representation)の研究は存在したが、大規模データへの適用は計算コストの面で困難だった。
3. 提案手法
Word2Vecは2つのモデルを提案した。CBOW(Continuous Bag of Words)は周囲の単語から中心の単語を予測する。Skip-gramは中心の単語から周囲の単語を予測する。計算効率を高めるため、Negative SamplingやHierarchical Softmaxを導入した。数十億語のコーパスでも効率的に学習できる。
4. 実験結果
「king - man + woman = queen」のような単語アナロジー(類推)タスクで、単語間の意味的・文法的関係がベクトル演算で表現できることを示した。Syntactic(文法)とSemantic(意味)の両方のアナロジーで高い精度を達成した。
5. 意義と影響
Word2Vecは単語埋め込みの概念を普及させ、自然言語処理の基盤技術となった。GloVe、FastTextなど多くの派生手法を生んだ。BERT、GPTなどの事前学習モデルにつながる重要な一歩となった。現在も多くのNLPアプリケーションで単語埋め込みが使用されている。
6. 関連論文
| 論文 | 関係 |
|---|---|
| BERT | 文脈を考慮した埋め込みへの発展 |
| LSTM | 系列モデルとの組み合わせ |
参考文献
[1] Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
[1] Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
関連書籍
リンク