AI・機械学習の応用

音声認識（ASR）おんせいにんしき

音声認識ASR音声テキスト変換Whisper自然言語処理文字起こし

音声認識ってどんなところで使われてるの？

簡単に言うとこんな感じ！

音声認識は「話した言葉をテキストに変換する技術」で、スマートスピーカー・議事録の自動化・コールセンターの文字起こし・医療の診療記録入力など、あらゆる「話して入力する」場面で活躍してるよ！精度がここ数年で急激に上がったから、実務で使える場面が増えてるんだ。

音声認識（ASR：Automatic Speech Recognition） とは、人間の音声をテキスト（文字）に自動変換する技術です。「Speech-to-Text（STT）」とも呼ばれます。

Deep Learningの進化により、2016年以降に人間と同等以上の認識精度を達成しました。2022年にOpenAIが公開したWhisperは、高精度な多言語・多話者対応の音声認識モデルとして広く使われています。

用途	内容
議事録自動化	会議の発言をリアルタイムまたは録音から文字起こし
コールセンター分析	通話内容をテキスト化してNPS・感情分析
音声アシスタント	Siri・Alexa・Google Assistantの基盤技術
医療記録	診察中の医師の口頭記録を自動文書化
字幕生成	動画コンテンツのリアルタイム字幕
アクセシビリティ	聴覚障害者向けリアルタイムキャプション

WER（Word Error Rate：単語誤り率） = (挿入数+削除数+置換数) / 参照テキストの単語数

人間の会話のWERは約5%。現代の主要ASRは5〜10%程度の精度を達成。