AI × デジタルサイネージ（エッジAI）｜クラウドに送らない、手のひらのAIと話すサイネージ | Interop Tokyo 2026 特集

AnimaBox は、対話AIの「クラウド前提」を反転させたデモンストレーションです。来場者の声をその場で聞き取り、端末内の小さな日本語AIだけで考え、3Dキャラクター「MINATO」が表情・口パク・視線をつけて喋り返す——これを Raspberry Pi 5 の上で、完全オフラインで実現しています。

クラウドに依存しないという選択

近年の対話AIは、その賢さの大半をクラウドの巨大なモデルに頼っています。便利な反面、回線が落ちれば止まり、会話の内容は外部サーバーへ送られ、応答にはネットワーク往復の待ち時間がかかります。

AnimaBox は、音声認識・会話エンジン・3D描画のすべてを端末内で完結。カメラとマイクの入力を状態機械（ディレクター）が束ね、会話パイプラインを経て3Dキャラの描画へ流す一方向のデータフローで、クラウドへ出る矢印はどこにもありません。

オンデバイスで動くモデル群

ランタイムで動くのは、すべて端末内に載る軽量モデルだけです。学習やデータ生成といった重い処理はクラウドの大型モデルで事前に済ませ、本番のランタイムはこの軽量モデルだけで動かします。

音声認識（STT）：Whisper（base, 74M）。Hailo 向けに HEF 化し、日本語を強制
意味検索の埋め込み：Ruri-v3-130m（512次元・正規化済み）でコサイン類似を取る
Rewriter / Reranker：Qwen2.5-1.5B-Instruct（量子化 Q4_K_M）
キャラ描画：three-vrm / WebGL。Raspberry Pi 5 で 720p・約27fps

「考える」中身 — 生成ではなく「検索→選択」

会話の心臓部は、文章を動的に生成しないという割り切りにあります。小型モデルに自由作文をさせると速度も品質も破綻しがち。そこで AnimaBox は「あらかじめ用意した回答群から、文脈に最も合うものを選ぶ」検索ベースの設計を採りました。

① Rewriter が発話を会話履歴とつないで検索クエリに書き換え、② Ruri の埋め込みで近い質問候補を引き（recall）、③ 小型LLMが文脈に最も合う回答を選ぶ（precision）。さらに確信度ゲート（コサイン類似 ≥ 0.85 なら Reranker を省略）や二段エスカレーションで、非力なモデルでも破綻させません。回答は事前生成済みの音声から再生し、品質と速度を安定させています。

whisper-base を日本語に最適化（Hailo-10H）

エッジで日本語を聞き取るため、OpenAI の whisper-base を Hailo-10H 向けにコンパイルし直しました。重みの再学習ではなく、ONNX へのエクスポート → 日本語コーパス（ReazonSpeech）での量子化キャリブレーション → HEF へのコンパイル、という流れです。

レイテンシは Pi 5 + Hailo-10H で短い発話なら約1〜2秒。日本語キャリブ済み HEF と推論アプリは MIT ライセンスで公開しています。

事前に大きなAIで「調教」しておく

「小さいAIなのに、なぜ的確に答えられるのか」——会場で動く前に、クラウドの大型AIで鍛えてあるからです。大型モデルが20種の来場者ペルソナを演じて会話し、別の大型モデルが審査（Judge）して改善点を抽出、回答や想定発話を仮適用して再対話、スコアが上がれば採用・下がればロールバック。人手のチューニングをループ化したことが、小型モデルを実用品質に引き上げた鍵です。

技術スペック

ハード: Raspberry Pi 5 ＋ Hailo-10H（NPU）／完全オフライン
音声認識: Whisper base(74M) を日本語キャリブして HEF 化
会話: 検索ベース（Rewriter → 意味検索[Ruri-v3] → Reranker[Qwen2.5-1.5B]）
描画: three-vrm / WebGL、720p 約27fps、viseme・視線・9感情ラベル

GitHub（オープンソース）

whisper-base-japanese-hef（日本語キャリブ済みHEF・MIT）

このデモのポイント

完全オフライン

ネット接続なしで動作。回線トラブルや通信コストの心配がありません。

プライバシー配慮

会話を外部に送らず端末内で処理。データ管理のハードルを下げます。

表情つきの応答

3Dキャラが口パク・視線・表情をつけて喋り、人を惹きつける接客体験に。

活用イメージ

店頭・受付の無人案内展示会・イベントブースの呼び込み多言語・観光案内端末

もっと詳しく

アーキテクチャを詳しく読む（スポットライト）

クラウドに送らない、手のひらのAIと話すサイネージ