データと前処理

アノテーション あのてーしょん

アノテーションデータラベリング教師データ注釈訓練データ作成
アノテーションについて教えて

簡単に言うとこんな感じ!

データに「注釈」を付ける作業のことだよ。医師がX線写真に「ここが腫瘍」と印を付けたり、文章に「この部分が固有名詞」と印を付けたりすること。AIは人間が付けたこの注釈を手がかりに学習するんだ!


アノテーションとは

アノテーション(Annotation)とは、データに対して機械学習の学習に必要な「注釈・タグ・ラベル」を付与する作業、およびその付与されたデータそのものを指します。データラベリングとほぼ同義で使われますが、アノテーションは「データに意味情報を付加する行為」というニュアンスが強く、より広い概念です。

教師あり学習モデルの品質はアノテーションの量と質に直接依存します。GPT-4やClaude等の優秀なLLMも、背景には膨大な人手アノテーション(特にRLHFでの人間評価)があります。


アノテーションの種類

画像・動画アノテーション

種類説明用途
画像分類画像全体にラベルを付与画像分類モデル
バウンディングボックス物体を矩形で囲む物体検出
ポリゴン物体の輪郭を多角形で囲む精密な物体検出
セマンティックセグメンテーションピクセル単位でクラス分類自動運転
インスタンスセグメンテーション個々の物体を区別したセグメント医療画像
キーポイント関節・ランドマーク位置をマーク姿勢推定

テキストアノテーション

種類説明用途
テキスト分類文書にカテゴリを付与感情分析、スパム検出
固有表現認識(NER)固有名詞の種類と位置をタグ付け情報抽出
依存構造解析単語間の依存関係を付与構文解析
質問応答質問と回答のペアを作成QAシステム
要約文書の要約を人手で作成要約モデル
RLHF評価AI出力のランキングを評価LLMアライメント

歴史と背景

  • 1987年:Penn TreebankがNLP用アノテーション付きコーパスのモデルに
  • 2009年:ImageNetプロジェクトが140万枚の画像アノテーションを完成
  • 2011年:Amazon Mechanical Turkによるクラウドソーシング普及
  • 2022年以降:OpenAI・Anthropicなどが大規模RLHF用アノテーションチームを整備

アノテーションツール

ツール対象データ特徴
LabelStudio画像・テキスト・音声オープンソース、多機能
CVAT画像・動画Intel製、無料
Labelbox画像・テキスト・動画クラウド型、企業向け
Scale AI多種類AIアシスト、大規模向け
ProdigyテキストspaCy連携、アクティブラーニング

関連用語