BERT

更新日:2025年12月18日

正式タイトル:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

著者:Devlin, Chang, Lee, Toutanova

発表年:2018年

掲載:NAACL 2019

所属:Google AI Language

原著論文:arXiv:1810.04805

1. 概要

BERTは、Transformerのエンコーダを用いた双方向言語モデルである。Masked Language Model(MLM)とNext Sentence Prediction(NSP)という2つの事前学習タスクにより、文脈を双方向から理解する能力を獲得した。事前学習-ファインチューニングのパラダイムを確立し、自然言語理解タスクのベンチマークを塗り替えた。

2. 研究の背景

2018年当時、言語モデルの事前学習は単方向(左から右、または右から左)で行われていた。ELMoは双方向のコンテキストを利用したが、2つの単方向LSTMを浅く連結するに留まっていた。GPTはTransformerのDecoderを用いた単方向モデルであり、文脈の半分しか利用できないという制約があった。真に双方向の文脈を深く統合した言語表現の学習が求められていた。

3. 提案手法

BERTは2つの革新的な事前学習タスクを導入した。MLMでは入力トークンの15%をランダムにマスクし、そのトークンを予測する。これにより、双方向の文脈を同時に利用した学習が可能となった。NSPでは2つの文が連続しているかを予測し、文間関係の理解を促進した。モデルはTransformerのエンコーダ12層(BERT-Base)または24層(BERT-Large)で構成される。

4. 実験結果

GLUE、SQuAD、SWAGなど11のNLPベンチマークで当時の最先端を達成した。特にGLUEベンチマークでは、平均スコア80.5%を記録し、人間のベースラインに迫る性能を示した。SQuAD 1.1では、F1スコア93.2%を達成し、人間の性能(91.2%)を上回った。

5. 意義と影響

BERTは自然言語理解タスクのパラダイムを一変させた。事前学習-ファインチューニングのアプローチが標準となり、RoBERTa、ALBERT、DistilBERT、ELECTRA、DeBERTaなど多くの派生モデルが生まれた。検索エンジン、質問応答システム、感情分析など、産業界でも広く採用された。Google検索にもBERTが導入され、検索クエリの理解が大幅に向上した。

6. 関連論文

論文関係
Attention Is All You Need基盤アーキテクチャ
GPT-2単方向との比較対象
参考文献
[1] Devlin, J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019.
[2] arXiv:1810.04805

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍