アノテーション あのてーしょん
アノテーションデータラベリング教師データ注釈訓練データ作成
アノテーションについて教えて
簡単に言うとこんな感じ!
データに「注釈」を付ける作業のことだよ。医師がX線写真に「ここが腫瘍」と印を付けたり、文章に「この部分が固有名詞」と印を付けたりすること。AIは人間が付けたこの注釈を手がかりに学習するんだ!
アノテーションとは
アノテーション(Annotation)とは、データに対して機械学習の学習に必要な「注釈・タグ・ラベル」を付与する作業、およびその付与されたデータそのものを指します。データラベリングとほぼ同義で使われますが、アノテーションは「データに意味情報を付加する行為」というニュアンスが強く、より広い概念です。
「教師あり学習」モデルの品質はアノテーションの量と質に直接依存します。GPT-4やClaude等の優秀なLLMも、背景には膨大な人手アノテーション(特にRLHFでの人間評価)があります。
アノテーションの種類
画像・動画アノテーション
| 種類 | 説明 | 用途 |
|---|---|---|
| 画像分類 | 画像全体にラベルを付与 | 画像分類モデル |
| バウンディングボックス | 物体を矩形で囲む | 物体検出 |
| ポリゴン | 物体の輪郭を多角形で囲む | 精密な物体検出 |
| セマンティックセグメンテーション | ピクセル単位でクラス分類 | 自動運転 |
| インスタンスセグメンテーション | 個々の物体を区別したセグメント | 医療画像 |
| キーポイント | 関節・ランドマーク位置をマーク | 姿勢推定 |
テキストアノテーション
| 種類 | 説明 | 用途 |
|---|---|---|
| テキスト分類 | 文書にカテゴリを付与 | 感情分析、スパム検出 |
| 固有表現認識(NER) | 固有名詞の種類と位置をタグ付け | 情報抽出 |
| 依存構造解析 | 単語間の依存関係を付与 | 構文解析 |
| 質問応答 | 質問と回答のペアを作成 | QAシステム |
| 要約 | 文書の要約を人手で作成 | 要約モデル |
| RLHF評価 | AI出力のランキングを評価 | LLMアライメント |
歴史と背景
- 1987年:Penn TreebankがNLP用アノテーション付きコーパスのモデルに
- 2009年:ImageNetプロジェクトが140万枚の画像アノテーションを完成
- 2011年:Amazon Mechanical Turkによるクラウドソーシング普及
- 2022年以降:OpenAI・Anthropicなどが大規模RLHF用アノテーションチームを整備
アノテーションツール
| ツール | 対象データ | 特徴 |
|---|---|---|
| LabelStudio | 画像・テキスト・音声 | オープンソース、多機能 |
| CVAT | 画像・動画 | Intel製、無料 |
| Labelbox | 画像・テキスト・動画 | クラウド型、企業向け |
| Scale AI | 多種類 | AIアシスト、大規模向け |
| Prodigy | テキスト | spaCy連携、アクティブラーニング |