機械学習の基礎概念を考察|過学習・正則化・バイアスバリアンスの本質

機械学習の基礎概念を考察|過学習・正則化・バイアスバリアンスの本質

更新日:2025年12月20日

機械学習を学ぶ上で避けて通れない基礎概念について調査・考察してみました。経験的リスク最小化(ERM)から始まり、過学習と正則化、そして近年注目されるDouble Descent現象まで、理論的背景と実践的意義を整理しています。これから機械学習を本格的に学ぶ方の参考になれば幸いです。
機械学習の基礎概念を考察|過学習・正則化・バイアスバリアンスの本質

1. 機械学習の理論的基盤

1.1 経験的リスク最小化(ERM)

機械学習の根幹をなす考え方が経験的リスク最小化(Empirical Risk Minimization)である。未知の分布P(X,Y)からサンプリングされたデータを用いて、期待損失(リスク)を最小化する仮説hを見つけることが目標となる。

真のリスクR(h)は母集団全体に対する期待損失として定義されるが、実際には母集団分布は未知であるため、手元のデータから計算される経験的リスクを代理として最小化する。この枠組みはVapnik(1991, 1998)によって体系化され、統計的学習理論の基礎となっている。

ERMの本質
経験的リスク最小化は「手元のデータでうまくいく仮説は、未知のデータでもうまくいくだろう」という帰納的推論に基づいている。この推論が成立するための条件を明らかにするのが学習理論の役割である。

1.2 i.i.d.仮定とその限界

古典的な機械学習理論では、データが独立同一分布(independent and identically distributed)に従うことを仮定する。しかし現実のデータには分布シフト、時系列依存、選択バイアスなどが存在する。

これらの問題に対処するため、ドメイン適応(Ben-David et al., 2010)、共変量シフト補正(Shimodaira, 2000)、継続学習といった手法が開発されてきた。

1.3 データ分割と評価の基本

モデルの汎化性能を正しく評価するためには、データを適切に分割することが不可欠である。標準的な手法では、訓練セット(60-80%)、検証セット(10-20%)、テストセット(10-20%)の3分割が用いられる。

Table 1. データ分割の役割
データセット 割合 主な用途
訓練セット 60-80% モデルパラメータの学習
検証セット 10-20% ハイパーパラメータ調整、早期停止
テストセット 10-20% 汎化性能の最終評価

交差検証(Cross-Validation)は、データを効率的に活用しながら分散の推定も可能にする手法である。k-fold CVでは、データをk分割し、各分割を順にテストセットとして使用する。計算コストと精度のトレードオフにより、k=5または10が一般的に用いられる。

2. 過学習と正則化の技術

2.1 過学習のメカニズム

過学習(Overfitting)とは、モデルが訓練データに過度に適合し、未知のデータに対する予測性能が低下する現象である。訓練誤差は低いにもかかわらずテスト誤差が高い状態、すなわち「汎化ギャップ」が大きい状態として観察される。

過学習の発生はモデルの複雑度、データ量、ノイズレベルに依存する。一般に、モデルが複雑すぎる場合、データが少なすぎる場合、またはデータにノイズが多い場合に過学習が生じやすい。

2.2 正則化手法の分類

過学習を抑制するための正則化手法は、明示的な手法と暗黙的な手法に大別される。

Table 2. 主要な正則化手法
分類 手法 特徴
明示的正則化 L2正則化(Ridge) 重みの二乗和にペナルティ、滑らかな解
L1正則化(Lasso) 重みの絶対値和にペナルティ、スパース解を誘導
Elastic Net L1とL2の組み合わせ
暗黙的正則化 早期停止 検証誤差が増加し始めたら学習を停止
Dropout ランダムにユニットを無効化、アンサンブル効果
データ拡張 訓練データを人工的に拡張
バッチ正規化 中間層の出力を正規化
L1正則化とスパース性
L1正則化(Lasso)はTibshirani(1996)によって提案された手法で、多くの重みをゼロに収束させる性質を持つ。これにより自動的な特徴選択が行われ、モデルの解釈性が向上する。

2.3 評価指標の選択

モデルの性能評価には、問題の種類に応じた適切な指標を選択する必要がある。

Table 3. 問題タイプ別の評価指標
問題タイプ 主要指標 用途・特徴
分類 正解率(Accuracy) 全体的な正確さ、クラス不均衡に注意
精度・再現率・F1 クラス不均衡時に有効
AUC-ROC 閾値に依存しない評価
回帰 MSE / MAE 予測誤差の大きさ
説明された分散の割合
ランキング NDCG / MAP 順序の正確さ

3. モデル選択と現代的視点

3.1 バイアス・バリアンス分解

期待二乗誤差は、バイアス(偏り)、バリアンス(分散)、既約誤差(ノイズ)の3成分に分解できる。これはGeman et al.(1992)によって明確に定式化された。

バイアスはモデルの仮定による系統的誤差を表し、バリアンスはデータの変動に対するモデルの感度を表す。古典的な理解では、複雑なモデルは低バイアス・高バリアンス、単純なモデルは高バイアス・低バリアンスとなり、両者のトレードオフの中で最適な複雑度を選択することが重要とされてきた。

3.2 Double Descent現象

深層学習時代において、このバイアス・バリアンス・トレードオフの古典的理解に疑問を投げかける現象が発見された。Belkin et al.(2019)およびNakkiran et al.(2020)は、モデルの複雑度を増加させると、従来のU字型の汎化誤差曲線の後に、再び誤差が減少する「Double Descent」現象を報告している。

Double Descent の発見経緯
2019年:Belkin et al. が線形モデルでの現象を報告
2020年:Nakkiran et al. が深層学習での普遍的な現象として確認
2020年以降:良性過学習(Benign Overfitting)の理論的解明が進展

この現象は、過パラメータ化されたモデル(パラメータ数がデータ数を超えるモデル)でも良好な汎化が達成されうることを示している。Bartlett et al.(2020)は、高次元設定における「良性過学習」の理論的基盤を構築し、どのような条件下で補間学習器(訓練誤差ゼロ)が良好な汎化を達成するかを明らかにした。

3.3 モデル選択の実践

モデル選択には、情報量規準とハイパーパラメータ最適化の2つのアプローチがある。

Table 4. 情報量規準の比較
規準 数式 特徴
AIC -2logL + 2k 予測性能を重視、過学習しやすい
BIC -2logL + k·log(n) データ数に応じたペナルティ、より保守的
MDL - Kolmogorov複雑性の近似

ハイパーパラメータ最適化については、グリッドサーチ、ランダムサーチ(Bergstra & Bengio, 2012)、ベイズ最適化(Snoek et al., 2012)などの手法が開発されている。特にランダムサーチは、高次元のハイパーパラメータ空間において効率的であることが知られている。

3.4 特徴量工学から表現学習へ

古典的な機械学習では、ドメイン知識に基づく手動の特徴設計(特徴量工学)が重要であった。スケーリング、カテゴリエンコーディング、次元削減(PCA, t-SNE, UMAP)などの技法が用いられてきた。

深層学習の発展により、End-to-endでの自動的な特徴抽出(表現学習)へのパラダイムシフトが起こっている。Bengio et al.(2013)は、良い表現の条件として、滑らかさ、スパース性、独立性などの特性を挙げている。現在では、事前学習モデルのファインチューニングが標準的なアプローチとなっている。

実践上の留意点

  • データ分割の順序:時系列データでは時間順序を尊重した分割が必要
  • 情報リークの防止:検証・テストデータの情報が訓練に混入しないよう注意
  • 正則化の選択:問題の性質に応じてL1/L2/Dropoutを使い分ける
  • 評価指標の妥当性:ビジネス目標と評価指標の整合性を確認
参考・免責事項
本記事は2025年12月時点の情報に基づいています。主要な参考文献として、Vapnik (1998) "Statistical Learning Theory"、Hastie, Tibshirani & Friedman (2009) "The Elements of Statistical Learning"、Shalev-Shwartz & Ben-David (2014) "Understanding Machine Learning"などを参照しています。専門的な判断は専門家にご相談ください。