AI・機械学習

回帰分析かいきぶんせき

線形回帰ロジスティック回帰予測モデル最小二乗法重回帰統計

回帰分析について教えて

簡単に言うとこんな感じ！

「気温が1℃上がるとアイスが何本多く売れるか」を数式で表す手法だよ！数値データの間にある関係を「直線（または曲線）」で近似して、未来の値を予測するんだ。売上予測・需要予測・価格設定など、ビジネスで一番よく使われる分析手法のひとつなんだよ！

回帰分析とは

回帰分析（Regression Analysis） とは、ある変数（目的変数）と他の変数（説明変数）の間の関係を数式で表し、未知の値を予測するための統計・機械学習手法です。「回帰」とは「平均への回帰」という統計学用語に由来し、19世紀末にFrancis Galtonが身長の遺伝を研究する中で確立しました。

最も基本的な 線形回帰 は「y = ax + b」という一次式（直線）でデータの関係を表します。説明変数が1つなら「単回帰」、複数なら「重回帰」と呼びます。一方、ロジスティック回帰 は名前に「回帰」とありますが、実際には 0/1（はい/いいえ）の 二値分類 に使う手法です。混同しやすいため注意が必要です。

ビジネスでの代表的な活用は、売上・需要予測（気温・曜日・イベントから販売数予測）、不動産価格推定（立地・面積・築年数から価格推定）、リスクスコアリング（属性データから融資リスク評価）などです。シンプルで解釈しやすく、予測根拠を説明しやすいため、規制が厳しい金融・医療分野でも広く採用されています。

回帰の種類と使い分け

手法	目的変数	特徴	代表的な用途
単回帰	連続値	説明変数1つ	基本的な相関分析
重回帰	連続値	説明変数複数	売上・価格予測
ロジスティック回帰	0/1	確率で分類	離脱予測・スパム判定
多項式回帰	連続値	曲線でフィット	非線形な関係
リッジ回帰	連続値	L2正則化付き	多重共線性対策
ラッソ回帰	連続値	L1正則化付き	特徴選択・スパース化

線形回帰のイメージ

歴史と背景

1805年 — Adrien-Marie Legendreが最小二乗法を発表。回帰分析の数学的基盤
1877年 — Francis Galtonが親子の身長データ分析で回帰の概念を確立
1936年 — Ronald Fisherが線形判別分析など統計的分類手法を整備
1958年 — David Coxがロジスティック回帰を提案。医学研究で普及
1990年代 — コンピュータの普及で大量データへの回帰分析が実用的に
2000年代〜 — 正則化（リッジ・ラッソ）の普及で高次元データへの適用が容易に

重回帰モデルの評価指標

指標	意味	目安
R²（決定係数）	予測がデータをどれだけ説明できるか	1に近いほど良い
RMSE	予測誤差の大きさ（実測値と同じ単位）	小さいほど良い
MAE	絶対誤差の平均	小さいほど良い
p値	各説明変数が偶然でない有意な影響を持つか	0.05未満で有意
VIF	説明変数間の多重共線性の度合い	10未満が目安