回帰分析 かいきぶんせき
線形回帰ロジスティック回帰予測モデル最小二乗法重回帰統計
回帰分析について教えて
簡単に言うとこんな感じ!
「気温が1℃上がるとアイスが何本多く売れるか」を数式で表す手法だよ!数値データの間にある関係を「直線(または曲線)」で近似して、未来の値を予測するんだ。売上予測・需要予測・価格設定など、ビジネスで一番よく使われる分析手法のひとつなんだよ!
回帰分析とは
回帰分析(Regression Analysis) とは、ある変数(目的変数)と他の変数(説明変数)の間の関係を数式で表し、未知の値を 予測 するための統計・機械学習手法です。「回帰」とは「平均への回帰」という統計学用語に由来し、19世紀末にFrancis Galtonが身長の遺伝を研究する中で確立しました。
最も基本的な 線形回帰 は「y = ax + b」という一次式(直線)でデータの関係を表します。説明変数が1つなら「単回帰」、複数なら「重回帰」と呼びます。一方、ロジスティック回帰 は名前に「回帰」とありますが、実際には 0/1(はい/いいえ)の 二値分類 に使う手法です。混同しやすいため注意が必要です。
ビジネスでの代表的な活用は、売上・需要予測(気温・曜日・イベントから販売数予測)、不動産価格推定(立地・面積・築年数から価格推定)、リスクスコアリング(属性データから融資リスク評価)などです。シンプルで解釈しやすく、予測根拠を説明しやすいため、規制が厳しい金融・医療分野でも広く採用されています。
回帰の種類と使い分け
| 手法 | 目的変数 | 特徴 | 代表的な用途 |
|---|---|---|---|
| 単回帰 | 連続値 | 説明変数1つ | 基本的な相関分析 |
| 重回帰 | 連続値 | 説明変数複数 | 売上・価格予測 |
| ロジスティック回帰 | 0/1 | 確率で分類 | 離脱予測・スパム判定 |
| 多項式回帰 | 連続値 | 曲線でフィット | 非線形な関係 |
| リッジ回帰 | 連続値 | L2正則化付き | 多重共線性対策 |
| ラッソ回帰 | 連続値 | L1正則化付き | 特徴選択・スパース化 |
線形回帰のイメージ
歴史と背景
- 1805年 — Adrien-Marie Legendreが最小二乗法を発表。回帰分析の数学的基盤
- 1877年 — Francis Galtonが親子の身長データ分析で回帰の概念を確立
- 1936年 — Ronald Fisherが線形判別分析など統計的分類手法を整備
- 1958年 — David Coxがロジスティック回帰を提案。医学研究で普及
- 1990年代 — コンピュータの普及で大量データへの回帰分析が実用的に
- 2000年代〜 — 正則化(リッジ・ラッソ)の普及で高次元データへの適用が容易に
重回帰モデルの評価指標
| 指標 | 意味 | 目安 |
|---|---|---|
| R²(決定係数) | 予測がデータをどれだけ説明できるか | 1に近いほど良い |
| RMSE | 予測誤差の大きさ(実測値と同じ単位) | 小さいほど良い |
| MAE | 絶対誤差の平均 | 小さいほど良い |
| p値 | 各説明変数が偶然でない有意な影響を持つか | 0.05未満で有意 |
| VIF | 説明変数間の多重共線性の度合い | 10未満が目安 |
関連する規格・RFC
| 規格・RFC番号 | 内容 |
|---|---|
| — | 学術・統計手法のため公式規格なし |