Interop Tokyo 2026 特集

AI × デジタルサイネージ(エッジAI)

クラウドに送らない、手のひらのAIと話すサイネージ

ネットにつながず、端末の中だけで日本語AIが考え、3Dキャラが表情つきで喋り返す。

AnimaBox は、対話AIの「クラウド前提」を反転させたデモンストレーションです。来場者の声をその場で聞き取り、端末内の小さな日本語AIだけで考え、3Dキャラクター「MINATO」が表情・口パク・視線をつけて喋り返す——これを Raspberry Pi 5 の上で、完全オフラインで実現しています。

クラウドに依存しないという選択

近年の対話AIは、その賢さの大半をクラウドの巨大なモデルに頼っています。便利な反面、回線が落ちれば止まり、会話の内容は外部サーバーへ送られ、応答にはネットワーク往復の待ち時間がかかります。

AnimaBox は、音声認識・会話エンジン・3D描画のすべてを端末内で完結。カメラとマイクの入力を状態機械(ディレクター)が束ね、会話パイプラインを経て3Dキャラの描画へ流す一方向のデータフローで、クラウドへ出る矢印はどこにもありません。

オンデバイスで動くモデル群

ランタイムで動くのは、すべて端末内に載る軽量モデルだけです。学習やデータ生成といった重い処理はクラウドの大型モデルで事前に済ませ、本番のランタイムはこの軽量モデルだけで動かします。

  • 音声認識(STT):Whisper(base, 74M)。Hailo 向けに HEF 化し、日本語を強制
  • 意味検索の埋め込み:Ruri-v3-130m(512次元・正規化済み)でコサイン類似を取る
  • Rewriter / Reranker:Qwen2.5-1.5B-Instruct(量子化 Q4_K_M)
  • キャラ描画:three-vrm / WebGL。Raspberry Pi 5 で 720p・約27fps

「考える」中身 — 生成ではなく「検索→選択」

会話の心臓部は、文章を動的に生成しないという割り切りにあります。小型モデルに自由作文をさせると速度も品質も破綻しがち。そこで AnimaBox は「あらかじめ用意した回答群から、文脈に最も合うものを選ぶ」検索ベースの設計を採りました。

① Rewriter が発話を会話履歴とつないで検索クエリに書き換え、② Ruri の埋め込みで近い質問候補を引き(recall)、③ 小型LLMが文脈に最も合う回答を選ぶ(precision)。さらに確信度ゲート(コサイン類似 ≥ 0.85 なら Reranker を省略)や二段エスカレーションで、非力なモデルでも破綻させません。回答は事前生成済みの音声から再生し、品質と速度を安定させています。

whisper-base を日本語に最適化(Hailo-10H)

エッジで日本語を聞き取るため、OpenAI の whisper-base を Hailo-10H 向けにコンパイルし直しました。重みの再学習ではなく、ONNX へのエクスポート → 日本語コーパス(ReazonSpeech)での量子化キャリブレーション → HEF へのコンパイル、という流れです。

レイテンシは Pi 5 + Hailo-10H で短い発話なら約1〜2秒。日本語キャリブ済み HEF と推論アプリは MIT ライセンスで公開しています。

事前に大きなAIで「調教」しておく

「小さいAIなのに、なぜ的確に答えられるのか」——会場で動く前に、クラウドの大型AIで鍛えてあるからです。大型モデルが20種の来場者ペルソナを演じて会話し、別の大型モデルが審査(Judge)して改善点を抽出、回答や想定発話を仮適用して再対話、スコアが上がれば採用・下がればロールバック。人手のチューニングをループ化したことが、小型モデルを実用品質に引き上げた鍵です。

技術スペック

ハード
Raspberry Pi 5 + Hailo-10H(NPU)/完全オフライン
音声認識
Whisper base(74M) を日本語キャリブして HEF 化
会話
検索ベース(Rewriter → 意味検索[Ruri-v3] → Reranker[Qwen2.5-1.5B])
描画
three-vrm / WebGL、720p 約27fps、viseme・視線・9感情ラベル

GitHub(オープンソース)

whisper-base-japanese-hef(日本語キャリブ済みHEF・MIT)

このデモのポイント

完全オフライン

ネット接続なしで動作。回線トラブルや通信コストの心配がありません。

プライバシー配慮

会話を外部に送らず端末内で処理。データ管理のハードルを下げます。

表情つきの応答

3Dキャラが口パク・視線・表情をつけて喋り、人を惹きつける接客体験に。

活用イメージ

店頭・受付の無人案内展示会・イベントブースの呼び込み多言語・観光案内端末

もっと詳しく

アーキテクチャを詳しく読む(スポットライト)

AI Solutions

AIソリューションは、神戸ソフトへ。

構想・PoCから、現場で動くシステムの開発・運用まで。御社の課題に合わせたAI活用を、一緒に考えます。