AI・機械学習の基本概念

自己教師あり学習じこきょうしありがくしゅう

教師なし学習事前学習表現学習BERTGPTコントラスト学習

自己教師あり学習について教えて

簡単に言うとこんな感じ！

「答えが書かれた教科書（ラベル付きデータ）なしで、データ自体をヒントにして学ぶ」仕組みだよ！文章の穴埋め問題を自分で作って自分で解くイメージで、ChatGPTみたいなAIが膨大なテキストを学んだ方法なんだ！

自己教師あり学習とは

自己教師あり学習（Self-Supervised Learning）とは、人間が手作業で「正解ラベル」を付けたデータを使わずに、データそのものの中から「問題と答え」を自動生成してAIを学習させる手法です。たとえば「この文章の伏せ字を当てよ」という問題をデータから自動で作り、それを大量に解かせることでAIに言語の構造を学ばせます。

従来の教師あり学習では、「この画像は猫」「この文章はポジティブ」のように人間がラベルを付ける作業が必要で、コストと時間が膨大にかかりました。自己教師あり学習はその壁を突破し、インターネット上の膨大なラベルなしデータ（テキスト・画像・音声など）をそのまま学習に活用できるのが最大の特徴です。

現代の大規模言語モデル（LLM）や画像認識AIの多くは、この手法で事前学習（Pre-training）を行ったうえで、特定タスク向けに少量のラベルデータでファインチューニングする、という二段階構成をとっています。ChatGPTやGeminiが自然な文章を生成できる根底には、自己教師あり学習があります。

「問題の自動生成」という仕組み

自己教師あり学習の核心は、データ自身から擬似的な正解（擬似ラベル）を作り出す点です。代表的な手法を整理します。

手法の種類	何をするか	代表モデル
マスク予測（MLM）	文章の一部を隠して「何が入る？」と当てさせる	BERT
次トークン予測（CLM）	直前の単語から「次に来る言葉」を予測する	GPT系
回転予測	画像を回転させて「何度傾いてる？」と当てさせる	RotNet
コントラスト学習	同じ画像の加工版同士は「近い」、別画像は「遠い」と学ぶ	SimCLR / MoCo
マスク画像モデリング	画像の一部を隠して「何が映ってた？」を予測する	MAE / BEiT

「穴埋め問題」の語呂で覚えよう

「自己（自分で問題を作り）、教師（自分が教師になり）、あり（答えはデータの中にある）学習」

ランダムに隠した穴（マスク）を「問題」、元の単語を「答え」として自動設定するので、人手は一切不要です。

どれくらいのデータ規模？

モデル	学習データ規模	学習方式
BERT（2018）	約33億語（Wikipedia＋BooksCorpus）	MLM＋NSP
GPT-3（2020）	約4500億トークン	CLM
LLaMA 2（2023）	約2兆トークン	CLM

これだけの量に手作業でラベルを付けることは不可能であり、自己教師あり学習なしに現在のAIは存在しなかったと言っても過言ではありません。

歴史と背景

1990年代〜2000年代：「教師なし学習」としてオートエンコーダーや主成分分析が研究される。しかしラベルなし学習の精度は低く、実用上は教師あり学習が主流
2013年：MikolovらがWord2Vecを発表。単語の前後関係を予測させるだけで意味のある「単語ベクトル」が得られることを示し、自己教師あり的なアプローチへの注目が集まる
2018年：GoogleがBERTを発表。マスク言語モデル（MLM）という自己教師あり学習で事前学習し、NLP（自然言語処理）の多くのベンチマークを塗り替えた
2018〜2020年：OpenAIがGPT・GPT-2・GPT-3を発表。次トークン予測という極めてシンプルな自己教師あり学習でスケールアップするほど性能が伸びることが判明
2020〜2021年：画像領域でSimCLR・MoCo・BYOLなどコントラスト学習が急成長。ラベルなしで教師あり学習に匹敵する精度を達成
2021年〜：Meta AIのMAE（Masked Autoencoders）がViT（Vision Transformer）と組み合わさり、画像でもBERT的な事前学習が有効であると実証
2022年〜現在：LLMブームの中核技術として確立。GPT-4・Claude・Geminiなどすべてが自己教師あり学習ベースの事前学習を採用

学習方式	ラベルの要否	代表手法	特徴
教師あり学習	必要（大量）	画像分類・翻訳	高精度だがラベル収集コスト大
教師なし学習	不要	クラスタリング・PCA	パターン発見に強いが精度制限あり
自己教師あり学習	不要（擬似ラベルを自動生成）	BERT・GPT・SimCLR	大規模データを高精度に活用できる
半教師あり学習	少量あり	MixMatch	少ないラベルを最大活用

自己教師あり学習じこきょうしありがくしゅう

自己教師あり学習とは

「問題の自動生成」という仕組み

「穴埋め問題」の語呂で覚えよう

どれくらいのデータ規模？

歴史と背景

関連する学習パラダイムとの比較

関連する規格・RFC

関連用語