データと前処理

ラベル らべる

ラベル正解データ目的変数教師データアノテーション
ラベルについて教えて

簡単に言うとこんな感じ!

機械学習で「正解」として使うデータのことだよ。「この写真は猫」「このメールはスパム」「この家の値段は3500万円」といった答えをラベルといって、AIはこれを手がかりに学習するんだ!


ラベルとは

ラベル(Label)とは、教師あり学習において機械学習モデル予測・学習する対象となる「正解データ」のことです。目的変数ターゲット変数とも呼ばれます。

モデルは特徴量(入力)→ ラベル(出力)の対応関係を大量のデータから学習し、未知の入力に対してラベルを予測できるようになります。

タスク種別ラベルの例
2値分類スパム / 非スパム(0 or 1)
クラス分類猫 / 犬 / 鳥(カテゴリ)
回帰3500万円(数値)
物体検出クラス名 + バウンディングボックス座標
テキスト生成期待される出力テキスト

ラベルの品質が精度を左右する

機械学習の格言「ガベージイン・ガベージアウト」の通り、ラベルに誤りや揺れがあるとモデルは誤ったパターンを学習します。

ラベルノイズ(ラベルの誤り)の主な原因:

  • アノテーターのミス・思い込み
  • アノテーションガイドラインの曖昧さ
  • 難しい判断を要するサンプル
  • 複数のアノテーターによる基準のばらつき

ラベルの取得方法

方法説明
人手によるラベリング専門家やクラウドワーカーが付与医療画像の病変ラベル
行動ログから自動取得ユーザー行動を正解として使うクリック有無、購買有無
ルールベース既存のビジネスルールで自動付与閾値以上の売上→成功
他モデルの出力既存モデルの予測をラベルにウィークスーパービジョン
LLMによる生成GPT等がラベルを生成感情分析の正解ラベル

歴史と背景

  • 1950年代〜:統計学での「従属変数」「目的変数」の概念が前身
  • 2000年代:機械学習普及とともに「ラベル」という呼称が定着
  • 2010年代:ImageNetなど大規模ラベル付きデータセットがAI革命を牽引
  • 現在:LLMによる自動ラベリング(LLM-as-annotator)が拡大

ラベルがないデータの活用

教師あり学習
  ラベルあり → 特徴量→ラベルの関係を学習

半教師あり学習
  ラベルあり(少量)+ ラベルなし(大量)を活用

自己教師あり学習
  ラベルなしデータからデータ自身を正解として学習(LLM等)

強化学習
  環境からの報酬をラベルの代わりに使用

関連用語