AI・機械学習の基本概念

自己教師あり学習 じこきょうしありがくしゅう

教師なし学習事前学習表現学習BERTGPTコントラスト学習
自己教師あり学習について教えて

簡単に言うとこんな感じ!

「答えが書かれた教科書(ラベル付きデータ)なしで、データ自体をヒントにして学ぶ」仕組みだよ!文章の穴埋め問題を自分で作って自分で解くイメージで、ChatGPTみたいなAIが膨大なテキストを学んだ方法なんだ!


自己教師あり学習とは

自己教師あり学習(Self-Supervised Learning)とは、人間が手作業で「正解ラベル」を付けたデータを使わずに、データそのものの中から「問題と答え」を自動生成してAIを学習させる手法です。たとえば「この文章の伏せ字を当てよ」という問題をデータから自動で作り、それを大量に解かせることでAIに言語の構造を学ばせます。

従来の教師あり学習では、「この画像は猫」「この文章はポジティブ」のように人間がラベルを付ける作業が必要で、コストと時間が膨大にかかりました。自己教師あり学習はその壁を突破し、インターネット上の膨大なラベルなしデータ(テキスト・画像・音声など)をそのまま学習に活用できるのが最大の特徴です。

現代の大規模言語モデルLLM)や画像認識AIの多くは、この手法で事前学習(Pre-training)を行ったうえで、特定タスク向けに少量のラベルデータでファインチューニングする、という二段階構成をとっています。ChatGPTやGeminiが自然な文章を生成できる根底には、自己教師あり学習があります。


「問題の自動生成」という仕組み

自己教師あり学習の核心は、データ自身から擬似的な正解(擬似ラベル)を作り出す点です。代表的な手法を整理します。

手法の種類何をするか代表モデル
マスク予測(MLM)文章の一部を隠して「何が入る?」と当てさせるBERT
次トークン予測(CLM)直前の単語から「次に来る言葉」を予測するGPT系
回転予測画像を回転させて「何度傾いてる?」と当てさせるRotNet
コントラスト学習同じ画像の加工版同士は「近い」、別画像は「遠い」と学ぶSimCLR / MoCo
マスク画像モデリング画像の一部を隠して「何が映ってた?」を予測するMAE / BEiT

「穴埋め問題」の語呂で覚えよう

「自己(自分で問題を作り)、教師(自分が教師になり)、あり(答えはデータの中にある)学習」

ランダムに隠した穴(マスク)を「問題」、元の単語を「答え」として自動設定するので、人手は一切不要です。

どれくらいのデータ規模?

モデル学習データ規模学習方式
BERT(2018)約33億語(Wikipedia+BooksCorpus)MLM+NSP
GPT-3(2020)約4500億トークンCLM
LLaMA 2(2023)約2兆トークンCLM

これだけの量に手作業でラベルを付けることは不可能であり、自己教師あり学習なしに現在のAIは存在しなかったと言っても過言ではありません。


歴史と背景

  • 1990年代〜2000年代:「教師なし学習」としてオートエンコーダーや主成分分析が研究される。しかしラベルなし学習の精度は低く、実用上は教師あり学習が主流
  • 2013年:MikolovらがWord2Vecを発表。単語の前後関係を予測させるだけで意味のある「単語ベクトル」が得られることを示し、自己教師あり的なアプローチへの注目が集まる
  • 2018年:GoogleがBERTを発表。マスク言語モデル(MLM)という自己教師あり学習で事前学習し、NLP(自然言語処理)の多くのベンチマークを塗り替えた
  • 2018〜2020年:OpenAIがGPT・GPT-2・GPT-3を発表。次トークン予測という極めてシンプルな自己教師あり学習でスケールアップするほど性能が伸びることが判明
  • 2020〜2021年:画像領域でSimCLR・MoCo・BYOLなどコントラスト学習が急成長。ラベルなしで教師あり学習に匹敵する精度を達成
  • 2021年〜:Meta AIのMAE(Masked Autoencoders)がViT(Vision Transformer)と組み合わさり、画像でもBERT的な事前学習が有効であると実証
  • 2022年〜現在:LLMブームの中核技術として確立。GPT-4・Claude・Geminiなどすべてが自己教師あり学習ベースの事前学習を採用

関連する学習パラダイムとの比較

3つの学習パラダイムの関係を整理しましょう。

学習方式ラベルの要否代表手法特徴
教師あり学習必要(大量)画像分類・翻訳高精度だがラベル収集コスト大
教師なし学習不要クラスタリング・PCAパターン発見に強いが精度制限あり
自己教師あり学習不要(擬似ラベルを自動生成)BERT・GPT・SimCLR大規模データを高精度に活用できる
半教師あり学習少量ありMixMatch少ないラベルを最大活用

各パラダイムの位置づけをフロー図で確認しましょう。

機械学習パラダイムの比較 教師あり学習 ラベル:必要(大量) 精度:◎ コスト:高 教師なし学習 ラベル:不要 精度:△ コスト:低 自己教師あり学習 ラベル:不要 精度:◎〜◎◎ コスト:低 現代LLMの二段階構成 ① 自己教師あり学習で事前学習(大規模・ラベルなし) ② 少量ラベルデータでファインチューニング

なぜ自己教師あり学習が「いいとこ取り」なのか

教師あり学習の「高精度」と教師なし学習の「ラベル不要」を両立しているのが自己教師あり学習の強みです。データから自動で擬似問題を生成するため、インターネット上のあらゆるテキストや画像が「教材」になります。


関連する規格・RFC

※ 自己教師あり学習はアルゴリズム・研究手法であり、IETFやISOによる標準化規格は存在しないため、このセクションは省略します。


関連用語

  • 機械学習 — データからパターンを自動で学習するAI技術の総称
  • 教師あり学習 — 正解ラベル付きデータを使ってモデルを学習させる手法
  • 教師なし学習 — ラベルなしデータからパターンや構造を発見する手法
  • 事前学習とファインチューニング — 大規模データで汎用モデルを作り特定タスクに適応させる二段階戦略
  • 大規模言語モデル(LLM) — 自己教師あり学習で事前学習した大規模なテキスト生成AI
  • BERT — Googleが開発したマスク言語モデルベースの自然言語処理モデル
  • GPT — OpenAIが開発した次トークン予測ベースの大規模言語モデルシリーズ
  • 転移学習 — 事前学習済みモデルの知識を別タスクに流用する学習戦略