AI・機械学習

回帰分析 かいきぶんせき

線形回帰ロジスティック回帰予測モデル最小二乗法重回帰統計
回帰分析について教えて

簡単に言うとこんな感じ!

「気温が1℃上がるとアイスが何本多く売れるか」を数式で表す手法だよ!数値データの間にある関係を「直線(または曲線)」で近似して、未来の値を予測するんだ。売上予測・需要予測・価格設定など、ビジネスで一番よく使われる分析手法のひとつなんだよ!


回帰分析とは

回帰分析(Regression Analysis) とは、ある変数(目的変数)と他の変数(説明変数)の間の関係を数式で表し、未知の値を 予測 するための統計・機械学習手法です。「回帰」とは「平均への回帰」という統計学用語に由来し、19世紀末にFrancis Galtonが身長の遺伝を研究する中で確立しました。

最も基本的な 線形回帰 は「y = ax + b」という一次式(直線)でデータの関係を表します。説明変数が1つなら「単回帰」、複数なら「重回帰」と呼びます。一方、ロジスティック回帰 は名前に「回帰」とありますが、実際には 0/1(はい/いいえ)の 二値分類 に使う手法です。混同しやすいため注意が必要です。

ビジネスでの代表的な活用は、売上・需要予測(気温・曜日・イベントから販売数予測)、不動産価格推定(立地・面積・築年数から価格推定)、リスクスコアリング(属性データから融資リスク評価)などです。シンプルで解釈しやすく、予測根拠を説明しやすいため、規制が厳しい金融・医療分野でも広く採用されています。


回帰の種類と使い分け

手法目的変数特徴代表的な用途
単回帰連続値説明変数1つ基本的な相関分析
重回帰連続値説明変数複数売上・価格予測
ロジスティック回帰0/1確率で分類離脱予測・スパム判定
多項式回帰連続値曲線でフィット非線形な関係
リッジ回帰連続値L2正則化付き多重共線性対策
ラッソ回帰連続値L1正則化付き特徴選択・スパース化

線形回帰のイメージ

説明変数 x(例:気温) 目的変数 y(例:売上) y = ax + b 残差 最小二乗法:残差の二乗和を最小化して直線を決める

歴史と背景

  • 1805年 — Adrien-Marie Legendreが最小二乗法を発表。回帰分析の数学的基盤
  • 1877年 — Francis Galtonが親子の身長データ分析で回帰の概念を確立
  • 1936年 — Ronald Fisherが線形判別分析など統計的分類手法を整備
  • 1958年 — David Coxがロジスティック回帰を提案。医学研究で普及
  • 1990年代 — コンピュータの普及で大量データへの回帰分析が実用的に
  • 2000年代〜 — 正則化(リッジ・ラッソ)の普及で高次元データへの適用が容易に

重回帰モデルの評価指標

指標意味目安
R²(決定係数)予測がデータをどれだけ説明できるか1に近いほど良い
RMSE予測誤差の大きさ(実測値と同じ単位)小さいほど良い
MAE絶対誤差の平均小さいほど良い
p値各説明変数が偶然でない有意な影響を持つか0.05未満で有意
VIF説明変数間の多重共線性の度合い10未満が目安

関連する規格・RFC

規格・RFC番号内容
学術・統計手法のため公式規格なし

関連用語