線形回帰 せんけいかいき
線形回帰回帰分析最小二乗法予測モデル重回帰
線形回帰について教えて
簡単に言うとこんな感じ!
「広さが増えるほど家賃が上がる」みたいな直線的な関係を数式で表したモデルだよ。「家賃 = 面積 × 係数 + 切片」という式を最小二乗法でフィットする。MLの中で最も古くてシンプルだけど、今でも実務でよく使われる信頼の手法なんだ!
線形回帰とは
線形回帰(Linear Regression)は、1つ以上の入力変数(特徴量)と連続値の出力(ターゲット)の間の線形的な関係を学習する回帰アルゴリズムです。
単回帰(特徴量が1つ)
y = w₁x₁ + b
y:予測値(家賃など)
x₁:特徴量(面積など)
w₁:係数(傾き)
b:切片(バイアス)
重回帰(特徴量が複数)
y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b
学習方法:最小二乗法
訓練データに対してMSE(平均二乗誤差)を最小化する係数 w を求めます。
最小化する目標:
L = Σ(y_i - ŷ_i)² → 最小
解析解(解が直接求まる):
w = (XᵀX)⁻¹ Xᵀy
線形回帰の仮定
線形回帰が有効に機能するための前提条件:
| 仮定 | 内容 |
|---|---|
| 線形性 | 入力と出力が線形関係 |
| 独立性 | 誤差項が互いに独立 |
| 等分散性 | 誤差の分散が一定 |
| 正規性 | 誤差が正規分布に従う |
| 多重共線性なし | 特徴量が互いに強く相関しない |
正則化の拡張
| 手法 | 正則化 | 特徴 |
|---|---|---|
| 通常の線形回帰 | なし | 多重共線性に弱い |
| Ridge回帰(L2) | λΣw² | 係数を縮小、安定化 |
| Lasso回帰(L1) | λΣ|w| | 不要な係数を0に(特徴量選択) |
| ElasticNet | L1+L2 | RidgeとLassoの中間 |
歴史と背景
- 1805年:ルジャンドルが最小二乗法を発表
- 1809年:ガウスが詳細な理論を展開
- 1900〜:統計学の標準手法として確立
- 現在:機械学習入門の第一歩として学ばれる永遠の基礎手法