AnimaBox は、対話AIの「クラウド前提」を反転させたデモンストレーションです。来場者の声をその場で聞き取り、端末内の小さな日本語AIだけで考え、3Dキャラクター「MINATO」が表情・口パク・視線をつけて喋り返す——これを Raspberry Pi 5 の上で、完全オフラインで実現しています。
クラウドに依存しないという選択
近年の対話AIは、その賢さの大半をクラウドの巨大なモデルに頼っています。便利な反面、回線が落ちれば止まり、会話の内容は外部サーバーへ送られ、応答にはネットワーク往復の待ち時間がかかります。
AnimaBox は、音声認識・会話エンジン・3D描画のすべてを端末内で完結。カメラとマイクの入力を状態機械(ディレクター)が束ね、会話パイプラインを経て3Dキャラの描画へ流す一方向のデータフローで、クラウドへ出る矢印はどこにもありません。
オンデバイスで動くモデル群
ランタイムで動くのは、すべて端末内に載る軽量モデルだけです。学習やデータ生成といった重い処理はクラウドの大型モデルで事前に済ませ、本番のランタイムはこの軽量モデルだけで動かします。
- 音声認識(STT):Whisper(base, 74M)。Hailo 向けに HEF 化し、日本語を強制
- 意味検索の埋め込み:Ruri-v3-130m(512次元・正規化済み)でコサイン類似を取る
- Rewriter / Reranker:Qwen2.5-1.5B-Instruct(量子化 Q4_K_M)
- キャラ描画:three-vrm / WebGL。Raspberry Pi 5 で 720p・約27fps
「考える」中身 — 生成ではなく「検索→選択」
会話の心臓部は、文章を動的に生成しないという割り切りにあります。小型モデルに自由作文をさせると速度も品質も破綻しがち。そこで AnimaBox は「あらかじめ用意した回答群から、文脈に最も合うものを選ぶ」検索ベースの設計を採りました。
① Rewriter が発話を会話履歴とつないで検索クエリに書き換え、② Ruri の埋め込みで近い質問候補を引き(recall)、③ 小型LLMが文脈に最も合う回答を選ぶ(precision)。さらに確信度ゲート(コサイン類似 ≥ 0.85 なら Reranker を省略)や二段エスカレーションで、非力なモデルでも破綻させません。回答は事前生成済みの音声から再生し、品質と速度を安定させています。
whisper-base を日本語に最適化(Hailo-10H)
エッジで日本語を聞き取るため、OpenAI の whisper-base を Hailo-10H 向けにコンパイルし直しました。重みの再学習ではなく、ONNX へのエクスポート → 日本語コーパス(ReazonSpeech)での量子化キャリブレーション → HEF へのコンパイル、という流れです。
レイテンシは Pi 5 + Hailo-10H で短い発話なら約1〜2秒。日本語キャリブ済み HEF と推論アプリは MIT ライセンスで公開しています。
事前に大きなAIで「調教」しておく
「小さいAIなのに、なぜ的確に答えられるのか」——会場で動く前に、クラウドの大型AIで鍛えてあるからです。大型モデルが20種の来場者ペルソナを演じて会話し、別の大型モデルが審査(Judge)して改善点を抽出、回答や想定発話を仮適用して再対話、スコアが上がれば採用・下がればロールバック。人手のチューニングをループ化したことが、小型モデルを実用品質に引き上げた鍵です。
技術スペック
- ハード
- Raspberry Pi 5 + Hailo-10H(NPU)/完全オフライン
- 音声認識
- Whisper base(74M) を日本語キャリブして HEF 化
- 会話
- 検索ベース(Rewriter → 意味検索[Ruri-v3] → Reranker[Qwen2.5-1.5B])
- 描画
- three-vrm / WebGL、720p 約27fps、viseme・視線・9感情ラベル
GitHub(オープンソース)
whisper-base-japanese-hef(日本語キャリブ済みHEF・MIT)
このデモのポイント
完全オフライン
ネット接続なしで動作。回線トラブルや通信コストの心配がありません。
プライバシー配慮
会話を外部に送らず端末内で処理。データ管理のハードルを下げます。
表情つきの応答
3Dキャラが口パク・視線・表情をつけて喋り、人を惹きつける接客体験に。
活用イメージ
もっと詳しく
アーキテクチャを詳しく読む(スポットライト)