AI・機械学習の応用

音声認識(ASR) おんせいにんしき

音声認識ASR音声テキスト変換Whisper自然言語処理文字起こし
音声認識ってどんなところで使われてるの?

簡単に言うとこんな感じ!

音声認識は「話した言葉をテキストに変換する技術」で、スマートスピーカー・議事録の自動化・コールセンターの文字起こし・医療の診療記録入力など、あらゆる「話して入力する」場面で活躍してるよ!精度がここ数年で急激に上がったから、実務で使える場面が増えてるんだ。


音声認識とは

音声認識(ASR:Automatic Speech Recognition) とは、人間の音声をテキスト(文字)に自動変換する技術です。「Speech-to-Text(STT)」とも呼ばれます。

Deep Learningの進化により、2016年以降に人間と同等以上の認識精度を達成しました。2022年にOpenAIが公開したWhisperは、高精度な多言語・多話者対応の音声認識モデルとして広く使われています。


音声認識の主な応用

用途内容
議事録自動化会議の発言をリアルタイムまたは録音から文字起こし
コールセンター分析通話内容をテキスト化してNPS・感情分析
音声アシスタントSiri・Alexa・Google Assistantの基盤技術
医療記録診察中の医師の口頭記録を自動文書化
字幕生成動画コンテンツのリアルタイム字幕
アクセシビリティ聴覚障害者向けリアルタイムキャプション

主な音声認識モデル・サービス

サービス特徴
Whisper(OpenAI)オープンソース・高精度・多言語対応
Google Cloud Speech-to-TextクラウドAPI、リアルタイム対応
Amazon TranscribeAWSのマネージドASR
Azure Speech ServiceMicrosoftのマネージドASR

音声認識の評価指標

WER(Word Error Rate:単語誤り率) = (挿入数+削除数+置換数) / 参照テキストの単語数

人間の会話のWERは約5%。現代の主要ASRは5〜10%程度の精度を達成。


歴史と背景

  • 1970年代:統計的モデル(HMM)によるASRが始まる
  • 2010年代:深層学習で急激に精度向上
  • 2022年:OpenAI Whisperがオープンソースで公開、アクセスビリティが大幅向上

関連用語