AI・機械学習

BERT ばーと

双方向Transformer事前学習ファインチューニング文章分類質問応答Google
BERTについて教えて

簡単に言うとこんな感じ!

Googleが2018年に発表した「言葉を理解するAI」の大ヒット作だよ!「文章を左から読む」「右から読む」を同時にやる双方向読解で、文脈の意味をよりよく理解できるんだ。検索エンジンの精度向上や、文書分類・感情分析・Q&Aシステムなどで大活躍してる!


BERTとは

BERT(Bidirectional Encoder Representations from Transformers) とは、Googleが2018年に発表した事前学習済み言語モデルです。名前の通り 双方向(Bidirectional) にテキストを処理するTransformerベースのエンコーダーで、文章の意味理解において当時の最高性能を大幅に更新しました。

BERTの最大の特徴は 双方向の文脈理解 です。従来のGPTなど「次の単語を予測する」方向性(左→右)のモデルと異なり、BERTは文章全体を両方向から同時に読み込むことで、単語の意味を前後の文脈から総合的に理解します。「銀行(bank)」という単語が「川岸」か「金融機関」かを文脈で正確に区別できるのはこのためです。

事前学習済みモデルを ファインチューニング(少量のタスク特化データで追加学習)することで、感情分析・文書分類・質問応答・固有表現抽出など多くのNLPタスクで高精度を実現できます。2019年にはGoogleの検索アルゴリズムに採用され、検索精度が大幅に向上したことでも有名です。


BERTの事前学習タスク

BERT の2つの事前学習タスク ① Masked Language Model(MLM) 文章の一部を [MASK] で隠して 穴埋めを学習する 「東京は日本の [MASK] だ」 →「首都」と予測 全方向の文脈を活用して学習 (双方向性の源泉) ② Next Sentence Prediction(NSP) 2文が続きの文かを判定する A:「彼はカフェに行った」 B:「コーヒーを注文した」 → 続き文(IsNext) 文間の論理関係・一貫性を学習 (QAや推論タスクに効果)

BERTのモデルサイズ

モデルTransformerレイヤー数ヘッド数パラメータ数
BERT-Base12121.1億
BERT-Large24163.4億
Japanese BERT(東北大)12121.1億(日本語特化)

歴史と背景

  • 2018年10月 — GoogleがBERT論文を発表。11のNLPベンチマークで最高性能を更新
  • 2018年11月 — BERTのオープンソース公開。多数の派生モデルが誕生
  • 2019年10月 — GoogleがGoogle検索にBERTを適用。特に長いクエリの理解精度が向上
  • 2019年RoBERTa(Facebook)、ALBERT(Google)など改良版が次々登場
  • 2020年日本語BERTモデル(東北大・NICT等)が公開。日本語タスクへの適用が容易に
  • 2022年〜 — GPT-3/4の登場で生成系が注目されるも、理解系タスクではBERT系が引き続き活躍

BERTと GPT の違い

観点BERTGPT
Transformerの構造エンコーダーのみデコーダーのみ
処理方向双方向(前後から同時)一方向(左→右)
得意タスク文章理解・分類・抽出文章生成・チャット
事前学習穴埋め(MLM)次単語予測
応用例検索・QA・分類ChatGPT・Copilot

関連する規格・RFC

規格・RFC番号内容
学術論文ベースの技術のため公式規格なし

関連用語